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内 容 提 要 


本 书 基于 MIT 编程 思维 培训 讲义 写成 ， 主 要 目标 在 于 帮助 读者 掌握 并 熟练 使 用 各 种 计算 技术 ， 有 具备 用 
计算 思维 解决 现实 问题 的 能 力 。 书 中 以 Python 3 为 例 ， 介 绍 了 对 中 等 规模 程序 的 系统 性 组 织 、 编 写 、 调 试 ， 
帮助 读者 深入 理解 计算 复杂 度 ， 还 讲解 了 有 用 的 算法 和 问题 简化 技术 ， 并 探讨 各 类 计算 工具 的 使 用 。 与 本 
书 第 1 版 相 比 ， 第 2 版 全 面 改写 了 后 半 部 分 ， 且 书 中 所 有 示例 代码 都 从 Python 2 换 成 了 Python 3。 

本 书 适 合 对 编程 知之 甚 少 但 想 要 使 用 计算 方法 解决 问题 的 读者 。 
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前 


本 书 基于 MIT 的 一 门 课程 写成 ， 这 门 课程 始 于 2006 年 ， 自 2012 年 起 ， 成 为 edX 和 MITx 上 的 一 
门 “ 大 规模 在 线 开放 课程 ”( Massive Online Open Courses，MOOC )。 本 书 第 1 版 基于 一 个 学 期 的 
课程 , 但 随 着 时 间 的 推移 ， 我 不 得 不 添加 更 多 内 容 ， 再 用 一 学 期 来 讲述 课程 已 经 不 合适 了 。 现在 
的 这 个 版 本 适合 于 两 学 期 的 计算 机 科学 系列 导论 课程 。 

当 我 开始 编写 第 2 版 时 ， 本 以 为 只 要 加 上 几 章 内 容 就 可 以 了 ， 但 结果 远 超 预料 。 我 重新 组 织 
了 本 书 的 后 半 部 分 ， 并 将 整 本 书 中 的 代码 从 Python 2 换 成 了 Python 3。 

本 书面 向 的 是 那些 没有 或 只 有 很 少 编程 经 验 , 但 希望 掌握 计算 方法 来 解决 问题 的 学 生 。 书 中 
的 内 容 是 一 些 学 生 学 习 更 高 级 计算 机 科学 课程 的 跳板 , 但 对 更 多 学 生来 说 , 则 是 正式 学 习 计 算 机 
科学 的 一 门 课程 。 

正 因 如 此 , 所 以 我 们 更 强调 课程 的 广度 , 而 不 是 深度 , 课程 的 目标 是 为 学 生 简 述 更 多 的 主题 ， 
使 他 们 在 想 用 计算 机 完成 目标 时 知道 自己 能 做 什么 。 尽 管 如 此 ,这 并 不 是 一 门 “计算 机 鉴赏 ” 课 
程 ， 要求 比较 严格 , 而 且 有 一 定 难度 。 读 者 需要 花费 大 量 时 间 和 精力 才能 真正 掌握 书 中 内 容 , 使 
计算 机 服从 自己 的 调 遗 。 

本 书 的 主要 目标 是 帮助 学 生 掌 握 并 熟练 使 用 各 种 计算 技术 , 以 得 到 有 价值 的 成 果 。 他 们 应 该 
学 会 使 用 计算 思维 表述 问题 , 并 掌握 如 何 从 数据 中 提取 信息 。 学 生 从 本 书 中 获得 的 最 重要 的 能 力 
是 ,使 用 计算 思维 解决 问题 的 艺术 。 

这 本 书 很 难 纳入 传统 的 计算 机 科学 课程 ,第 1~11 章 是 典型 的 针对 没有 或 只 有 很 少 编程 经 验 的 
学 生 的 计算 机 科学 课程 ; 第 12~14 章 稍微 高 级 一 些 ， 如 果 想 学 习 进 阶 技术 ， 可 以 从 这 几 章 挑选 些 
内 容 ， 作 为 导论 课程 的 补充 ; 第 15~24 章 介绍 如 何 使 用 计算 技术 来 理解 数据 ， 我 们 认为 其 中 的 内 
容 应 该 成 为 计算 机 科学 课程 体系 中 的 第 二 门 课程 (代替 传统 的 数据 结构 课程 )。 

第 1~11 章 主要 包含 五 个 方面 的 内 容 : 
0 编程 基础 
口 Python 3 编程 语言 
口 计算 问题 的 解决 技术 
口 计算 复杂 度 
口 使 用 图 形 表示 信息 

我 们 会 介绍 Python 语言 的 大 部 分 特性 ,但 重点 在 于 可 以 使 用 编程 语言 做 什么 ， 而 不 是 语言 本 
身 。 比 如 ， 第 3 章 结束 时 虽然 只 介绍 了 Python 语言 的 一 小 部 分 ， 但 已 经 引入 穷 举 的 概念 、 猜 测 与 
































































































































































































































验证 算法 、 二 分 查找 和 高 效 近 似 算 法 。 纵 贯 本 书 ， 我 们 都 会 介绍 Python 的 特性 。 同 样 地 ， 本 书 从 
头 至 尾 也 会 介绍 编程 方法 。 我 们 的 理念 是 帮助 学 生 们 掌握 Python ， 并 成 为 一 个 优秀 的 程序 员 ， 能 
够 使 用 计算 技术 解决 自己 感 兴趣 的 问题 。 
书 中 示例 都 使 用 Python 3.5 进 行 了 测试 。Python 3 修正 了 Python 2 各 种 发 布 版 本 (通常 称 为 
Python 2.x ) 在 设计 上 的 很 多 不 一 致 性 ， 但 它 不 是 向 后 兼容 的 ， 这 意味 着 大 多 数 使 用 Python 2 编 
写 的 程序 不 能 在 Python 3 中 正常 运行 。 因 为 这 个 原因 ，Python 2.x 还 在 被 广泛 使 用 。 第 一 次 使 用 
Python 3 中 不 同 于 Python 2 的 特性 时 ， 我 们 都 会 明确 指出 如 何在 Python 2 中 完成 相同 功能 。 书 中 
所 有 示例 都 有 Python 3.5 和 Python 2.7 的 在 线 版 本 。 
第 12~13 章 介绍 了 优化 , 这 是 一 个 虽然 重要 但 很 少 包含 在 导论 课程 中 的 主题 。 第 14~16 章 介绍 
了 随机 规划 ， 这 也 是 一 个 虽然 重要 但 很 少 包含 在 导论 课程 中 的 主题 。 我 们 在 MIT 授 课 的 经 验 是 ， 
在 一 个 学 期 的 导论 课程 中 , 或 者 可 以 讲述 第 12~13 章 的 内 容 , 或 者 可 以 讲述 第 14~16 章 的 内 容 , 但 
不 能 二 者 兼顾 。 
第 15~24 章 在 设计 上 是 独立 成 篇 的 , 内 容 涉及 如 何 使 用 计算 技术 来 理解 数据 。 其 中 使 用 的 数学 
知识 不 超出 高 中 代数 的 范围 ， 但 要 求 读者 具有 严谨 的 思维 能 力 ， 且 不 会 被 数学 概念 吓 倒 。 这 一 部 
分 包括 多 数 导 论 课程 中 没有 的 内 容 : 数据 可 视 化 、 模 拟 模型 、 概 率 与 统计 思维 ， 以 及 机 器 学 习 。 
我 们 相信 对 大 多 数学 生来 说 , 这 部 分 内 容 远 比 那些 典型 的 第 二 门 计算 机 科学 课程 的 内 容 更 有 意义 。 
我 们 没有 在 每 章 末 尾 设置 习题 ， 而 是 在 每 章 的 适当 部 分 插入 了 “实际 练习 ”。 有 些 练习 非常 
简短 ， 目 的 是 使 读者 确认 自己 确实 明白 了 刚刚 学 过 的 内 容 。 有 些 练习 增加 了 一 点 挑战 性 , 适合 在 
考试 时 使 用 。 其 余 练 习 的 难度 比较 大 ， 可 以 作为 课 后 作业 。 
本 书 有 三 个 普 适 性 主题 : 系统 的 问题 解决 方式 、 抽 象 能 力 ， 以 及 将 计算 思维 作为 思考 世界 的 
一 种 方式 。 学 完 本 书后 ， 你 应 该 : 
口 学 会 使 用 Python 语言 进行 编程 和 计算 ; 
D 学 会 系统 性 地 组 织 、 编 写 、 调 试 中 等 规模 的 程序 ; 
D 理解 计算 复杂 度 ; 
口 将 模糊 的 问题 描述 转化 为 明确 的 计算 方法 ， 以 此 解决 问题 ， 并 对 这 个 过 程 有 深刻 的 理解 ; 
口 掌握 一 些 有 用 的 算法 以 及 问题 简化 技术 ; 
口 对 于 那些 很 难得 到 封闭 解 的 问题 ， 知 道 如 何 使 用 随机 性 和 模拟 技术 进行 清晰 闻 述 ; 
D 学 会 使 用 计算 工具 (包括 简单 的 统计 、 可 视 化 以 及 机 器 学 习 工 具 ) 对 数据 进行 理解 与 建 模 。 
编程 本 身 就 是 一 项 非常 困难 的 活动 。 正 如 那 名 名言 所 说 :“ 在 几何 中 ， 没 有 专 为 国王 铺设 的 
大 道 。 “对 于 编程 来 说 ， 也 没有 捷径 可 走 。 如 果 你 想 真 正 掌握 书 中 的 内 容 ， 光 阅读 是 不 够 的 ， 还 
应 该 亲自 运行 书 中 的 代码 。2008 年 以 来 ， 本 书 基于 的 各 种 课程 都 放 在 MIT 的 开放 课程 网 站 
(COpenCourseWare，OCW ) 上 。 这 里 有 授课 过 程 的 视频 录像 ， 以 及 一 系列 习题 和 考题 。 从 2012 年 
秋季 开始 , 我 们 在 edX 和 MITx 上 提供 了 在 线 课程 ， 其 中 包括 本 书 的 大 部 分 内 容 。 我 们 强烈 推荐 你 
做 做 OCW 和 edX 上 提供 的 习题 。 






























































































































































































































































@ 据 传 ， 公 元 前 300 年 左右 ， 托 勒 密 国王 希望 有 学 习 数 学 的 捷径 。 对 于 这 个 要 求 ， 欧 几 里 得 给 出 了 这 样 的 回答 。 
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计算 机 能 有 旦 只 能 做 两 件 事 , 执行 计算 与 保存 计算 结果 , 但 它 把 这 两 件 事 都 做 到 了 极致 。 常 见 
的 台式 机 或 笔记 本 电脑 每 秒 钟 大概 可 以 执行 10 亿 次 计算 , 快 得 难以 置信 。 想 象 一 下 ,让 一 个 离 地 
面 1 米 高 的 球 自由 落体 到 地 面 上 ， 这 么 短暂 的 时 间 ， 你 的 计算 机 已 经 执行 了 超过 10 亿 条 指令 。 至 
于 存储 ， 一 台 普 通 计算 机 可 以 有 几 千 亿 字 节 的 存储 空间 。 这 是 什么 概念 呢 ? 打 个 比方 ， 如 果 1 字 
节 (byte， 表 示 一 个 字符 所 需 的 位 数 , 通常 是 8 位 ) 的 重量 是 1 克 ( 实际 上 当然 不 是 ), 那么 100 GB 
的 重量 就 相当 于 10 000 吨 ， 这 几乎 是 15 000 头 非洲 象 的 重量 。 

在 人 类 历史 的 大 部 分 时 间 里 , 计算 受 限 于 人 类 大 脑 的 计算 速度 以 及 人 类 双手 记录 计算 结果 的 
能 力 , 这 意味 着 通过 计算 只 能 解决 一 些 最 简单 的 问题 。 即 使 现代 计算 机 具备 如 此 快 的 速度 , 它 在 
很 多 问题 上 依然 无 能 为 力 ( 例如 ， 搞 清楚 气候 变化 )， 但 越 来 越 多 的 问题 已 经 被 证 明 可 以 通过 计 



























































算 解决 。 我 们 希望 你 学 习 完 本 书 之 后 ， 可 以 熟练 地 将 计算 思维 应 用 到 解决 工作 、 学 习 、 生 活 问 题 
的 过 程 中 。 


那么 ,计算 思维 到 底 指 什么 呢 ? 

所 有 知识 都 可 以 归结 为 两 类 : 陈述 性 知识 和 程序 性 知识 。 陈 述 性 知识 由 对 事实 的 描述 组 成 。 
例如 :“ 如 果 满 足 x y = x， 那 么 x 的 平方 根 就 是 数值 y。” 这 就 是 对 事实 的 描述 。 遗 憾 的 是 ， 它 没 
有 告诉 我 们 怎样 求 出 平方 根 。 

程序 性 知识 说 明 “ 如 何 做 ”， 描述 的 是 信息 演绎 的 过 程 。 亚 历 山 大 的 海伦 ( Heron of Alexandria ) 
第 一 次 提出 如 何 计算 一 个 数 的 平方 根 ”"。 他 的 方法 可 以 总 结 如 下 : 

(1) 随机 选择 一 个 数 g; 

(2) 如 果 g x 8 足够 接近 x*， 那 么 停止 计算 ， 将 g 作 为 答案 ; 

(3) 否则 ， 将 g 和 x/g 的 平均 数 作为 新 数 ， 也 就 是 (g + x/g)/2; 

(4) 使 用 新 选择 的 数 一 一 还 是 称 其 为 e 一 一 重复 这 个 过 程 ， 直 到 g x g 足 够 接近 x。 

思考 下 面 这 个 例子 ， 求 出 25 的 平方 根 。 

(1) 为 8 设置 一 个 任意 值 ， 例 如 3 ; 

(2) 我 们 确定 3 x 3 =9， 没 有 足够 接近 25; 













































































@ 很 多 人 认为 海伦 不 是 这 种 方法 的 发 明 者 ， 确 实 有 一 些 证 据 表 明 ， 是 古巴 比 伦 人 发 明了 这 种 方法 。 
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(3) 设置 g 为 (3 + 25/3)/2 = $.67; 了 

(4) 我 们 确定 5.67 x 5.67 = 32.15 还 是 不 够 接近 25; 

(5) 设置 g 为 (5.67 + 25/5.67)/2 = 5.04; 

(6) 我 们 确定 5.04 x 5.04 = 25.4 已 经 足够 接近 25 了 ， 所 以 停止 计算 ， 宣 布 5.04 就 是 25 的 平方 根 
的 一 个 合适 的 近似 值 。 

请 注意 ,这 个 方法 描述 的 是 一 系列 简单 的 步骤 ,以 及 一 个 控制 流 ， 用 来 确定 某 个 步骤 在 什么 
情况 下 得 以 执行 。 这 种 描述 称 为 算法 >。 这 个 例子 是 一 个 猜测 与 检验 算法 。 它 基于 这 样 一 个 事实 : 
我 们 很 容易 验证 一 个 猜测 是 否 合理 。 

更 加 正式 的 定义 是 : 算法 是 一 个 有 穷 指 令 序列 ,描述 了 这 样 一 种 计算 过 程 ， 即 在 给 定 的 输入 
集合 中 执行 时 ， 会 按照 一 系列 定义 明确 的 状态 进行 ， 最 终 产生 一 个 输出 结果 。 

算法 有 点 像 菜谱 : 

(1) 将 蛋 奶 糊 加 热 ; 

(2) 搅拌 ; 

(3) 将 调 姜 浸入 重 奶 糊 ; 

(4) 拿 出 调 北 ， 用 手指 划一 下 调 北 背 面 ; 

(5) 如 果 留 下 明显 痕迹 ， 则 停止 加 热 并 冷却 ; 

(6) 否则 重复 以 上 步 又。 

算法 包含 一 些 测试 指令 ,用 来 确定 整个 过 程 何 时 结束 ; 还 包含 一 些 顺 序 指令 ， 用 来 确定 指令 
执行 的 顺序 。 有 些 时 候 ， 还 会 根据 测试 结果 跳 转 到 某 些 指令 。 

那么 , 如 何 将 菜谱 的 思想 应 用 到 机 械 过 程 中 呢 ? 一 种 方法 就 是 , 专门 设计 一 台 用 来 计算 平方 
根 的 机 器 。 这 上 听 起 来 有 点 奇怪 ,但 实际 上 ， 最 早 用 来 计算 的 机 器 就 是 这 种 固定 程序 计算 机 。 顾 名 
思 义 , 它们 的 设计 目的 就 是 做 非常 具体 的 事情 ,而且 大 多 数 情况 下 用 来 解决 具体 的 数学 问题 ， 如 
计算 炮弹 的 弹道 。 阿 塔 纳 索 夫 和 贝 里 在 1941 年 建造 的 机 器 算是 最 早 的 计算 机 之 一 , 它 可 以 用 来 解 
线性 方程 组 , 但 其 他 什么 都 不 会 。 阿 兰 : 图 灵 在 二 战 期 间 设计 Bombe 计 算 机 器 的 目的 就 是 ,专门 
破解 纳粹 德国 的 Enigma 密 码 。 现 在 , 一 些 非常 简单 的 计算 机 还 在 使 用 这 种 方法 。 例如， 四 功能 计 
算 器 就 是 一 种 固定 程序 计算 机 , 它 只 能 做 简单 的 算术 ,不 能 用 作文 字 处 理 器 ， 也 不 能 运行 视频 游 
戏 。 要 改变 这 种 机 器 的 程序 ， 只 能 更 换 电路 。 

第 一 台 真 正 的 现代 计算 机 是 Manchester Mark 12。 相 比 于 那些 先驱 者 ， 它 有 本 质 上 的 改进 ， 
即 它 是 一 台 存 储 程序 计算 机 。 这 种 计算 机 存储 ( 并 操作 ) 一 个 指令 序列 ， 并 具有 一 个 可 以 执行 序 
列 中 任何 指令 的 元 素 集 合 。 通 过 创建 指令 集结 构 ， 并 将 计算 过 程 详 细 划 分 为 一 个 指令 序列 (也 就 
是 一 个 程序 )， 我 们 可 以 制造 高 度 灵活 的 机 器 。 存 储 程序 计算 机 可 以 对 指令 进行 处 理 ， 就 像 处 理 
数据 一 样 ， 这 样 就 能 够 轻松 修改 程序 ， 并 且 可 以 在 程序 的 控制 之 下 做 这 些 事 情 。 实际 上 , 计算 机 











































































































































































































Qa 为 简单 起 见 ， 我 们 对 结果 进行 了 四 舍 五 入 。 

@ 这 个 词 源 于 波斯 数学 家 穆罕默德 . 伊 本 : 穆 萨 : 阿尔. 花 刺 子 模 ( Muhammad ibn Musa al-Khwarizmi )。 

@ 这 台 计 算 机 建造 于 曼彻斯特 大 学 ，1949 年 运行 了 第 一 个 程序 。 它 将 先前 约翰 . 冯 ' 诺 依 曼 提 出 的 设想 变 成 了 现实 ， 
也 验证 了 阿兰 图 灵 1936 年 提出 的 通用 图 灵机 理论 。 
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的 核心 变 成 了 可 以 执行 任意 合法 指令 集 的 程序 ( 称 为 解释 器 )， 这 样 计算 机 就 能 够 计算 任何 可 以 夺 
使 用 基本 指令 集 描述 的 问题 。 

计算 机 操作 的 程序 和 数据 都 存储 在 内 存 中 。 通 常 都 有 一 个 程序 计数 器 指向 内 存 中 的 特定 位 
置 , 通过 执行 这 个 位 置 上 的 指令 , 计算 过 程 得 以 开始 。 大 多 数 情况 下 , 解释 器 只 是 简单 地 按照 顺 
序 执行 序列 中 的 下 一 条 指令 , 但 并 不 总 是 如 此 。 在 某 些 情 况 下 , 解释 器 执行 一 个 测试 , 然后 根据 
测试 结果 可 能 跳 到 指令 序列 的 其 他 位 置 继续 执行 。 这 称 为 控制 流 , 是 允许 我 们 编写 可 执行 复杂 任 
务 的 程序 的 必 备 条 件 。 

再 回 到 菜谱 这 个 比喻 ， 如 果 给 定 一 组 固定 原料 ， 那 么 一 位 优秀 的 厨师 通过 各 种 方式 的 搭配 ， 
可 以 做 出 非常 多 的 美味 佳肴 。 同 样 地 ， 如 果 给 定 一 个 小 规模 的 固定 初始 元 素 组 合 , 那么 一 位 优秀 
的 程序 员 也 可 以 创造 出 非常 多 的 有 用 程序 。 这 就 是 编程 如 此 引人入胜 的 原因 。 

要 创建 “菜谱 ”"， 即 指令 序列 ， 我 们 需要 能 够 描述 这 些 指 令 的 编程 语言 ， 从 而 向 计算 机 发 号 










































































施 令 





1936 年 ， 英 国 数学 家 阿兰 .图 灵 提 出 了 一 种 抽象 的 计算 设备 ， 后 来 称 为 通用 图 灵机 。 这 种 机 
器 具有 无 限 的 存储 容量 ， 即 一 条 无 限 长 的 纸 带 。 可 以 在 纸 带 上 面 写 人 0 和 1， 以 及 一 些 非常 简单 的 
初始 指令 ， 从 而 对 纸 闪 进 行 移动 、 读 出 和 写 人 等 操作 。 印 奇 -图 灵 论 题 表 明 ， 如 果 一 个 函数 是 可 
计算 的 ， 那么 一 定 可 以 通过 对 图 灵机 进行 编程 实现 这 种 计算 。 

印 奇 -图 灵 论 题 中 的 “如 果 ” 非 常 重要 ， 并 非 所 有 问题 都 可 以 通过 计算 求解 。 举 例 来 说 ,图 
灵 就 曾经 证 明 ， 不 存在 这 样 一 个 程序 . 对 于 给 定 的 任意 程序 P， 当 且 仅 当 P 永 远 运 行 时 输出 true。 
这 就 是 著名 的 停机 问题 。 

王 奇 -图 灵 论 题 可 以 直接 推导 出 图 灵 完 备 性 这 个 概念 。 如 果 一 门 编程 语言 可 以 模拟 通用 图 灵 
机 ， 才 可 以 说 它 是 图 灵 完 备 的 。 所 有 现代 编程 语言 都 是 图 灵 完 备 的 。 因 此 ,任何 可 以 被 一 门 编程 
语言 〈 例 如 Python ) 实现 的 程序 ， 都 可 以 被 男 一 门 编程 语言 (例如 Java ) 实现 。 当 然 ， 有 些 事情 
用 某 种 语言 实现 起 来 更 容易 ， 但 就 计算 能 力 而 言 ， 所 有 语言 从 根本 上 说 都 是 相等 的 。 

幸运 的 是 ,程序 员 不 必 在 图 灵 初 始 指令 集 的 基础 上 构建 程序 ,现代 编程 语言 提供 了 更 大 、 更 
方便 的 初始 指令 集 。 但 是 ， 编 程 基本 思想 的 核心 仍然 是 组 装 操 作 序 列 的 过 程 。 

不 管 具有 什么 样 的 初始 指令 集 , 也 不 管 如 何 使 用 初始 指令 集 , 关于 编程 的 最 美妙 的 事情 也 同 
时 是 最 糟糕 的 事情 : 计算 机 会 严格 按照 你 的 指令 去 做 。 这 很 美妙 ， 因 为 这 意味 着 你 可 以 使 用 计算 
机 做 各 种 各 样 既 有 趣 又 有 用 的 事情 ; 这 很 糟糕 ,因为 如 果 计 算 机 没有 按照 你 的 期 望 去 做 , 那么 你 
不 能 怨天尤人 ， 只 能 自 怨 自 艾 。 

当今 世界 中 存在 着 几 百 种 编程 语言 ， 没 有 哪 一 门 语言 是 最 好 的 〈 尽 管 你 可 以 数 出 一 些 最 差 
的 ) 术 业 有 专攻 , 每 种 语言 都 有 自己 的 用 武之 地 。 举 例 来 说 , MAILAB 是 一 门 非常 优秀 的 语言 ， 
适合 操作 向 量 和 和 矩阵 ; C 也 是 一 门 优秀 的 语言 ， 适 合 开发 控制 数据 网 络 的 程序 ， PHP 是 建立 网 站 
的 理想 选择 ; Python 则 以 良好 的 通用 性 著称。 

每 种 编程 语言 都 有 基本 结构 、 语 法 、 静 态 语义 和 语义 。 如果 用 一 门 自然 语言 类 比 , 例如 英语 ， 
那么 基本 结构 就 是 单词 , 语法 则 用 来 描述 哪些 单词 放 在 一 起 可 以 组 成 通顺 的 句子 , 静态 语义 定义 
了 哪些 句子 是 有 意义 的 ,语义 则 定义 了 句子 的 实际 含义 ,Python 语言 中 的 基本 结构 包括 字面 量 ( 例 
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如 ， 数 值 3.2 和 字符 串 'abc' ) 和 中 组 操作 符 ( 例如 ，+ 和 / )。 

语言 中 的 语法 定义 了 字符 和 符号 组 成 句子 的 正确 形式 。 例 如 ， 英 语 中 的 Cat dog boy 这 个 句子 
在 语法 上 是 错误 的 ， 因 为 英语 语法 不 接受 < 名 词 >< 名 词 >< 名 词 > 这 样 的 句子 形式 。 在 Python 中 ， 
3.2 + 3.2 这 样 的 基本 结构 序列 在 语法 上 是 良好 的 ， 但 3.2 3.2 这 个 序列 则 不 是 。 

静态 语义 定义 了 哪些 语法 有 效 的 句子 是 有 意义 的 。 例 如 ， 英 语 中 I are big 这 个 句子 是 < 代 
词 >< 系 动词 >< 形 容 词 > 的 形式 ， 在 语法 上 是 有 效 的 。 然 而 它 不 是 有 效 的 英语 句子 ， 因 为 代词 I 
是 单数 ， 而 系 动词 are 是 复数 。 这 就 是 典型 的 静态 语义 错误 。 在 Python 中 ， 序 列 3.2/ 'abc ' 在 语 
法 上 没有 问题 (< 字面 量 >< 操 作 符 >< 字 面 量 > )， 但 会 产生 一 个 静态 语义 错误 ， 因 为 数值 除 以 字 
符 串 是 没有 意义 的 。 
在 一 门 语言 中 , 语义 为 每 个 语法 正确 又 没有 静态 语义 错误 的 句子 关联 一 个 含义 。 在 自然 语言 
中 ， 句 子 的 语义 可 以 是 模棱两可 的 。 例 如 ， 句 子 I cannot praise this student too highly 可 以 是 一 种 茶 
维 ， 也 可 以 是 一 种 批评 。 编 程 语 言 是 被 精心 设计 过 的 ， 所 以 每 个 程序 都 具有 一 种 确切 的 含义 。 

尽管 语法 错误 是 最 常见 的 错误 (特别 是 学 习 一 门 新 的 编程 语言 时 )， 它 的 危害 性 却 最 小 。 每 
种 严谨 的 编程 语言 都 会 尽力 检查 语法 错误 ， 绝 不 允许 用 户 运 行 有 语法 错误 的 程序 。 而 且 , 大 多 数 
情况 下 ， 语 言 系统 都 会 给 出 足够 明确 的 提示 ， 指 出 错误 的 位 置 ， 让 用 户 明 确 得 知 如 何 修复 错误 。 

至 于 静态 语义 错误 ， 情 况 就 有 点 复杂 了 。 有 些 语言 ， 比 如 Java， 运 行程 序 之 前 会 做 很 多 静态 

语义 检查 。 但 其 他 一 些 语言 ， 比 如 C 和 Python， 静 态 语义 检查 就 比较 少 。Python 在 运行 程序 时 确 
实 会 做 相当 数量 的 静态 语义 检查 ， 但 不 会 捕获 所 有 静态 语义 错误 。 如 果 这 些 错误 没有 被 检测 出 ， 
程序 的 行为 往往 将 是 不 可 预知 的 。 后 面 会 看 到 一 些 这 样 的 例子 。 

通常 我 们 并 不 会 说 程序 具有 语义 错误 。 如 果 一 个 程序 没有 语法 错误 ， 也 没有 静态 语义 错误 ， 

那么 它 就 有 某 种 含义 。 也 就 是 说 , 它 具 有 语义 。 当 然 , 这 并 不 是 说 它 具 有 的 语义 就 是 程序 员 想 表 
达 的 含义 。 如 果 程 序 的 含义 与 程序 员 想 表达 的 含义 不 同 ， 那 就 糟糕 了 。 

如 果 程 序 有 错误 且 没 有 按照 你 的 期 望 运行 ， 那 会 发 生 什 么 呢 ? 

口 它 可 能 月 演 ， 也 就 是 说 ,停止 运 行 并 表现 出 某 种 明显 的 崩 演 迹象 。 在 设计 合理 的 计算 系 
统 中 ， 一 个 程序 的 月 演 不 会 殊 及 整个 系统 。 当 然 ， 某 些 非常 流行 的 计算 机 系统 并 没有 这 
种 良好 的 特性 。 几 乎 所 有 的 个 人 计算 机 用 户 都 有 过 这 种 体验 : 某 个 程序 出 现 问题 时 ， 必 
须 重启 计算 机 才能 解决 。 

口 它 也 可 能 继续 运行 、 运 行 、 运 行 ， 永 不 停止 。 如 果 你 不 清楚 程序 完成 任务 大 概 需 要 多 少 
时 间 ， 那 么 就 很 难 识别 这 种 异常 情况 。 
口 它 也 可 能 运行 结束 ， 并 产生 一 个 可 能 正确 也 可 能 不 正确 的 结果 。 

以 上 每 种 情况 都 不 是 我 们 想 要 的 , 特别 是 最 后 一 种 。 当 一 个 程序 看 上 去 正确 运行 而 实际 上 没 
有 了 时， 接 下 来 的 事情 就 很 糟糕 了 。 财 产 可 能 损失 ,患者 可 能 受到 致命 剂量 的 放射 治疗 ， 飞 机 可 能 
会 坠毁 ， 等 等 。 
程序 如 果 没 有 正确 运行 ， 就 应 该 表现 出 明显 的 错误 。 只 要 有 可 能 ,我 们 都 应 该 以 这 种 方式 编 
写 程序 。 如 何 实现 这 一 点 将 贯穿 本 书 始终 。 
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实际 练习 : 计算 机 有 时 候 过 于 咬文嚼字 。 如 果 你 没有 准确 告诉 它 应 该 怎么 做 , 那么 它 一 般 都 | 
会 做 错 。 试 着 实现 一 个 两 地 之 间 的 驾驶 算法 ,假设 为 某 人 而 写 。 然 后 想象 一 下 ,如果 这 个 人 严格 
按照 你 的 指示 来 做 ,会 发 生 什 么 情况 ? 例如 ， 他 会 收 到 多 少 违章 罚单 ? 
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尽管 每 种 编程 语言 都 具有 各 自 的 特点 〈 实 际 上 这 些 特 点 没有 语言 设计 者 宣称 的 那么 多 )， 但 

些 方面 ， 它 们 还 是 有 共同 之 处 的 。 

口 低级 编程 与 高 级 编程 : 二 者 之 间 的 区 别 是 ， 编 写 程序 时 ， 我 们 是 使 用 机 器 层次 的 指令 和 
数据 对 象 〈 例 如， 将 64 位 数据 从 一 个 位 置 移动 到 另 一 个 位 置 )， 还 是 使 用 语言 设计 者 提供 
的 更 为 抽象 的 操作 ( 例如， 在 屏幕 上 弹出 一 个 菜单 )。 

口 通用 性 与 专注 于 某 一 应 用 领域 : 指 编程 语言 中 的 基本 操作 是 广泛 适用 的 还 是 只 针对 某 个 
领域 。 例如 ， SQL 设计 的 目的 是 使 你 更 容易 地 从 关系 数据 库 提取 信息 , 但 你 不 能 指望 它 去 
建立 一 个 操作 系统 。 

口 解释 运行 与 编译 运行 : 指 程序 员 编 写 的 指令 序列 ， 即 源 代 码 是 直接 执行 (通过 解释 器 ) 
的 ， 还 是 要 先 转换 ( 通过 编译 器 ) 成 机 器 层次 的 基础 操作 序列 。( 在 早期 的 计算 机 中 ， 
人 们 必须 使 用 与 机 器 编码 非常 相似 的 语言 来 编写 源 代码 , 这 种 代码 可 以 直接 被 计算 机 硬 
件 解释 执行 。) 这 两 种 方法 各 有 优势 。 使 用 解释 型 语言 编写 的 程序 更 易 调 试 ， 因 为 解释 
器 可 以 给 出 与 源 代码 相关 的 错误 信息 。 而 编译 型 语言 编写 的 程序 速度 更 快 , 占用 的 空间 
也 更 少 。 

在 本 书 中 ， 我 们 使 用 的 语言 是 Python ， 但 不 仅 限 于 Python 。 虽 然 本 书 可 以 帮助 读者 学 习 

Python， 但 更 重要 的 是 ， 细 心 的 读者 可 以 从 中 学 会 如 何 通过 编写 程序 解决 问题 。 这 种 技能 可 以 转 

化 到 任何 一 种 编程 语言 中 。 

Python 是 一 门 通用 性 编程 语言 ， 几 乎 可 以 快速 创建 任何 类 型 的 程序 ， 而 不 需要 直接 访问 计 
算 机 硬件 。 然 而 ， 如 果 想 创建 高 可 靠 性 的 程序 ，Python 并 不 是 最 好 的 选择 ( 因为 它 的 静态 语义 
查 比 较 弱 )。 同 样 ， 它 也 不 适 于 需要 多 人 或 长 时 间 编 写 与 维护 的 程序 ( 原因 还 是 糟糕 的 静态 
语义 检查 )。 

但 是 , 相对 于 多 数 其 他 语言 , Python 确实 有 一 些 过 人 之 处 。 它 相当 简单 ,易于 学 习 。 因 为 Python 
是 解释 型 语言 ， 所 以 能 够 提供 实时 反馈 ， 这 对 编程 新 手 特别 有 用 。Python 还 可 以 调用 大 量 免费 的 
程序 库 ， 极 大 地 扩展 了 自己 的 功能 。 本 书 也 会 用 到 一 些 库 。 

下 面 开 始 学 习 Python 中 的 一 些 基 本 元 素 。 这 些 概念 几乎 对 所 有 语言 都 是 通用 的 ， 只 是 在 实现 
细节 上 有 所 差别 。 
需要 提醒 各 位 ， 本 书 并 不 会 全 面 介绍 Python。 我 们 只 是 将 Python 作为 一 个 工具 ， 目 的 是 阐明 
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并 思考 和 解决 计算 问题 相关 的 概念 。 当 这 个 隐 含 目标 有 需要 的 时 候 , 我 们 会 零 零 散 散 地 介绍 一 些 
语言 知识 ， 至 于 与 这 个 目标 无 关 的 Python 特性 则 根本 不 会 提 及 。 我 们 认为 这 样 做 没有 什么 问题 ， 
因为 现在 有 无 数 优秀 的 在 线 资源 ， 几 乎 涵盖 了 这 门 语言 的 各 个 方面 。 讲 授 本 书 基 于 的 课程 时 , 我 
们 建议 学 生 使 用 这 些 免 费 的 在 线 资 源 作 为 Python 的 参考 资料 。 

Python 是 一 门 鲜 活 的 语言 。 自 从 吉 多 ' 范 ' 罗 苏 姆 1990 年 发 明 Python 以 来 ， 它 已 经 发 生 了 很 
多 变化 。 最 初 的 10 年 中 ,Python 默默 无 闻 ， 备 受 冷 落 。 直 到 2000 年 Python 推出 2.0 版 本 ， 情 况 才 发 
生 转 变 。 除 了 语言 本 身 实现 了 很 多 重要 的 改进 ， 其 演化 路 径 也 发 生 了 标志 性 的 转变 。 很 多 人 开始 
开发 可 以 与 Python 无 颖 对 接 的 程序 库 ， 并 提供 持续 性 的 支持 。Python 生 态 系统 下 的 开发 成 为 一 种 
基于 社区 的 活动 。Python 3.0 在 2008 年 末 发 布 。 这 个 版 本 的 Python 修正 了 Python 2 的 多 个 发 布 版 本 
(通常 称 为 Python 2.x ) 在 设计 上 的 不 一 致 。 但 是 , 它 不 是 向 后 兼容 的 , 这 意味 着 大 多 数 使 用 Python 
以 前 版 本 编写 的 程序 不 能 在 Python 3 中 正常 运行 。 

过 去 的 几 年 中 ， 多 数 重要 领域 的 Python 程序 库 都 转向 了 Python3 ， 并 使 用 Python 3.5 进 行 了 充 
分 的 测试 ， 这 就 是 本 书 所 使 用 的 Python 版 本 。 


2.1 Python 基本 元 素 


Python 程序 有 时 称 为 脚本 ， 是 一 系列 定义 和 命令 。Python 解 释 器 ， 有 时 称 为 shell， 用 来 求 值 
这 些 定 义 并 执行 命令 。 一 般 情 况 下 ,每 次 开始 执行 一 个 程序 都 会 创建 一 个 新 的 shell， 通 常 也 会 打 
开 一 个 窗口 。 

我 们 建议 你 现在 打开 一 个 Python shell, 并 用 它 运行 本 章 后 续 部 分 的 示例 代码 。 在 本 书后 面 的 
内 容 中 ， 你 也 可 以 这 样 做 。 

命令 通常 称 为 语句 ， 用 来 指示 解释 器 做 一 些 事情 。 例 如 ， 语 句 print('Yankees rule!') 指 
示人 解释 器 调用 print 函 数 ?， 并 在 shell 窗 口 输出 字符 早 Yankees rulel。 

以 下 命令 序列 : 

print “Yankees rulel 


print “But not in Bostonl! 
print “Yankees rule,', 'but not in Bostonl 


会 使 解释 器 生成 如 下 输出 : 


Yankees rulel 
But not in Boston! 
Yankees rule, but not in Boston! 


请 注意 ， 第 三 条 语句 中 ， 有 两 个 值 会 被 传递 给 print。print 函 数 可 以 接受 任意 数量 的 参数 ， 由 
逗号 分 隔 ， 然 后 按照 原来 的 顺序 输出 ， 由 空格 隔 开 。? 
































































































































Q@ 4.1 节 将 讨论 函数 。 
@ 在 Python 2 中 ，print 是 一 个 命令 而 非 函数 ， 因 此 应 该 这 样 写 ; print 'Yankees rule!'，"'but not in Boston '。 
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2.1.1 ” 对象、 表达 式 和 数值 类 型 


对 象 是 Python 程序 处 理 的 核心 元 素 。 每 个 对 象 都 有 类 型 ， 定 义 了 程序 能 够 在 这 个 对 象 上 做 的 
操作 。 
类 型 分 为 标量 和 非 标 量 。 标 量 对 象 是 不 可 分 的 ， 可 以 把 它们 视 为 语言 中 的 原子 ”"。 非 标量 对 

象 ， 比 如 字符 串 ， 具 有 内 部 结构 。 

在 程序 文本 中 ， 很 多 类 型 的 对 象 可 以 用 字面 量 表示 。 例 如 ， 文 本 2 是 个 表示 数值 的 字面 量 ， 
文本 'abc' 则 是 一 个 表示 字符 串 的 字面 量 。 
Python 有 以 下 4 类 标量 对 象 。 

口 int: 表示 整数 。int 类 型 的 字面 量 在 形式 上 与 通常 的 整数 一 样 ( 如 -3、5 或 10 002 )。 

口 float : 表示 实数 。float 类 型 的 字面 量 总 是 包括 一 个 小 数 点 〈 如 3.86、3.17 或 -28.72 )。 
(还 可 以 用 科学 计数 法 表示 float 类 型 的 字面 量 ， 如 字面 量 1.6E3 表 示 1.6*10" ， 也 就 是 
1600.0。) 你 可 能 很 好 奇 ， 这 个 类 型 为 什么 不 称 为 real。 在 计算 机 中 ，float 类 型 的 值 是 
以 浮 点 数 的 形式 保存 的 。 所 有 现代 编程 语言 都 使 用 这 种 表示 方法 ， 它 有 很 多 优点 。 但 是 ， 
在 某 些 情况 下 ， 使 用 浮 点 数 计算 与 使 用 实数 计算 会 有 一 些微 小 的 差别 。 我 们 会 在 3.4 节 详 
加 讨论 。 

口 boo1:， 表示 布尔 值 True 和 False。 

口 None: 这 个 类 型 只 有 一 个 值 。4.1 节 将 详细 讨论 。 

对 象 和 操作 符 可 以 组 成 表达 式 , 每 个 表达 式 都 相当 于 某 种 类 型 的 对 象 , 我 们 称 其 为 表达 式 的 

值 。 例 如 ， 表 达 式 3 + 2 表示 int 类 型 的 对 象 5， 表 达 式 3.6 + 2.6 表 示 float 类 型 的 对 象 5.8。 

== 操 作 符 用 来 检验 两 个 表达 式 的 值 是 否 相 等 ，!= 操 作 符 用 来 检验 两 个 表达 式 的 值 是 否 不 等 。 
单个 = 的 意义 完全 不 同 ， 我 们 会 在 2.1.2 节 介绍 。 预 先 警 告 一 下 ， 如 果 你 在 应 该 使 用 == 的 地 方 使 用 
了 =， 就 会 出 现 一 个 错误 ， 请 随时 注意 。 

符号 >>> 是 shell 提 示 符 ， 表 示 解 释 器 正 等 竺 用户 向 shell 输 入 某 些 Python 代码 。 解 释 器 对 在 提 
示 符 处 输入 的 代码 进行 求 值 之 后 , 会 在 提示 符 所 在 行 的 下 一 行 显示 代码 结果 , 用 户 与 解释 器 的 交 
互 过 程 如 下 所 示 : 


>>> 3 + 2 

5 

>>> 3.06 + 2.0 
5.0 

>>> 3 1= 2 
True 


可 以 使 用 Python 内 置 函 数 type 给 出 对 象 类 型 : 


>>> type(3) 
<type 'int'> 
>>> type(3.6) 
<type 'float'> 
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中 是 的 ， 原 子 不 是 真正 不 可 分 的 。 但 分 裂 原子 非常 困难 ， 而 且 分 裂 的 结果 也 是 我 们 不 想 看 到 的 。 
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int 类 型 和 float 类 型 支持 的 操作 符 如 图 2-1 所 示 。 








it+Jj:i 和 j 的 和 。 如果 1i 和 j 都 是 int 类 型 , 结果 也 是 int 类 型 ; 如 果 其 中 任意 一 个 是 float 
类 型 ， 那 么 结果 就 是 float 类 型 。 
i - j: 表示 i 减 j。 如 果 i 和 j 都 是 int 类 型 , 结 
类 型 ， 那么 结果 就 是 float 类 型 。 
并 *j: 和 j 的 积 。 如果 i 和 j 都 是 int 类 型 , 结果 也 是 int 类 型 ; 如 果 其 中 任意 一 个 是 float 
类 型 ， 那么 结果 就 是 float 类 型 。 

i // j: 表示 整数 除法 。 例 如 ，6 // 2 的 值 是 3，int 类 型 。6 // 4 的 值 是 1，int 类 型 。 
值 为 1 的 原因 是 整数 除法 只 返回 商 ， 不 返回 余数 。 如 果 j == 86， 会 发 生 一 个 错误 。 

i / j: 表示 i 除 以 j。 在 Python 3 中 ，/ 操 作 符 执行 的 是 浮 点 数 除法 。 例 如 ，6 / 4 的 值 是 
1.5。 如 果 j == 6， 会 发 生 一 个 错误 。 (在 Python 2 中 ， 当 i 和 j 都 是 int 类 型 时 ，/ 操 作 符 和 
// 操 作 符 一 样 ， 返 回 int 类 型 的 结果 。 如 果 i 或 j 中 任意 一 个 是 float 类 型 ， 那么 /操作 符 和 
Python 3 中 的 /操作 符 一 样 ， 返 回 float 类 型 的 结果 。 ) 

i % j: 表示 int i 除 以 int j 的 余数 。 通 常 读 作 i mod j， 是 i modulo j 的 缩写 。 

i ** j: 表示 i 的 j 次 方 。 如 果 i 和 j 都 是 int 类 型 ， 结 果 也 是 int 类 型 。 如 果 其 中 任意 一 个 
是 float 类 型 ， 那 么 结果 就 是 float 类 型 。 

比较 运算 符 包括 : == ( 等于) 、!= (不 等 于 ) 、> (大 于 ) 、>= (大 于 等 于 ) 、< (小 于 ) 


和 <= (小 于 等 于 ) 。 








I 


也 是 int 类 型 ; 如 果 其 中 任意 一 个 是 float 

































































































































































图 2-1 ”int 类 型 和 float 类 型 支持 的 操作 符 


算术 操作 符 一 般 具 有 优先 级 。 例 如 ，* 的 优先 级 比 + 要 高 ， 所 以 表达 式 x + y * 2 要 先 计 算 y 
乘 以 2， 再 将 结果 与 x 相 加 。 通 过 使 用 圆 括号 将 表达 式 的 一 部 分 括 起 来 ， 可 以 改变 计算 顺序 ， 如 
(x + y) * 2 先 计 算 x 加 y， 再 将 结果 与 2 相 乘 。 

boo1 类 型 上 的 基本 操作 符 为 and、or 和 not。 

口 a and b: 当 a 和 b 都 为 True 时 ， 值 为 True， 和 否则 为 False。 
口 a or b: 当 a 和 b 至 少 有 一 个 为 True 时 ， 值 为 True， 和 否则 为 False。 
口 not a: 如 果 a 为 False， 值 为 True; 如 果 a 为 True， 值 为 False。 












































2.1.2 ”变量 与 赋值 
变量 将 名 称 与 对 象 关联 起 来 。 看 下 面 的 代码 : 





pi = 3 

radius = 11 

area = pi * (radius**2) 
radius = 14 





这 段 代码 先 将 名 称 pi 和 radius 绑 定 到 两 个 int 类 型 的 对 象 。 然后 将 名 称 area 绑 定 到 第 三 个 int 类 
型 的 对 象 ， 如 图 2-2 中 左 图 所 示 。 











Q@ 如 果 你 认为 x 的 实际 值 不 是 3， 那 就 对 了 。 我 们 会 在 16.4 节 对 此 进行 说 明 。 
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radius | radius 





| area 








图 2-2 ”将 变量 绑 定 到 对 象 


如 果 程 序 接着 执行 radius = 14， 名 称 radius 就 被 重新 绑 定 到 一 个 新 的 int 类 型 的 对 象 ， 如 图 
2-2 中 右 图 所 示 。 请 注意 , 这 次 赋值 对 area 绑 定 的 值 没有 影响 , 它 仍然 绑 定 到 由 表达 式 3 * (11 ** 2) 
表示 的 对 象 。 

在 Python 中 ， 变 量 仅 是 名 称 ， 没 有 其 他 意义 。 请 牢记 这 一 点 ， 这 非常 重要 。 赋 值 语句 将 = 左 
边 的 名 称 与 = 右边 的 表达 式 所 表示 的 对 象 关联 起 来 ， 也 请 牢记 这 一 点 。 一 个 对 象 可 以 有 一 个 或 多 
个 名 称 与 之 关联 ， 也 可 以 不 关联 任何 名 称 。 

也 许 我 们 不 应 该 说 “变量 仅 是 名 称 ”。 不管 朱丽叶 怎么 说 "， 名称 还 是 很 重要 的 。 编 程 语言 可 
以 让 我 们 用 一 种 机 器 可 执行 的 方式 描述 计算 过 程 ， 但 这 并 不 意味 着 只 有 计算 机 会 阅读 你 的 程序 。 

你 很 快 就 会 发 现 , 编写 运行 顺畅 的 程序 可 不 是 一 件 容易 的 事 。 经 验 丰 富 的 程序 员 会 肯定 地 告 
诉 你 , 为 了 弄 清楚 程序 的 工作 方式 ,他 们 会 花费 大 量 时 间 阅 读 程序 。 因 此 , 将 程序 写 得 清晰 易 懂 
极其 重要 ， 恰 当地 选择 变量 名 称 在 增强 程序 可 读 性 方面 扮演 了 重要 角色 。 

看 看 下 面 两 段 代码 : 































































































a = 3.14159 pi = 3.14159 
b = 11.2 diameter = 11.2 
Cc = ‘a*(b**2) area = pi*(diameter**2) 


就 Python 本 身 来 讲 ， 这 两 段 代 码 没 有 区 别 ， 运 行 时 ， 它 们 会 做 同样 的 事情 。 但 对 于 人 类 读者 ， 它 
们 则 迎 然 不 同 。 当 你 阅读 左 侧 的 代码 片段 时 , 没有 任何 先 验 理由 可 以 怀疑 哪里 出 了 错误 。 但 对 于 
右 侧 代码 ， 我 们 可 以 一 眼 就 看 出 其 中 有 错 。 或 者 将 本 应 该 命名 为 radius 的 变量 错误 命名 为 
diameter， 或 者 应 该 在 计算 面积 的 时 候 将 diameter 除 以 2.6。 

在 Python 中 ， 变 量 名 可 以 包含 大 写字 母 、 小 写字 母 、 数 字 ( 但 不 能 以 数字 开头 ) 和 特殊 字 
符 _。Python 变 量 名 是 大 小 写 敏 感 的 ， 如 Julie 和 julie 就 是 不 同 的 变量 名 。 最 后 ，Python 中 还 
有 少量 的 保留 字 ( 有 时 称 为 关键 字 ), 它们 有 专门 的 意义 , 不 能 用 作 变 量 名 。 不 同 版 本 的 Python 















































@ “名 字 有 什么 关系 ? 把 玫瑰 花 叫 作 别 的 名 称 ， 它 依然 芳香 。” 一 一 莎士比亚 《罗密欧 与 朱丽叶 》 
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中 ， 保 留 字 有 些微 小 的 区 别 。Python 3 中 的 保留 字 包括 and、as 、assert 、break 、class、 
continue、 def、 del、 elif、 else、 except、 False、 finally、 for、 from、 global、 if、 
import、 in、 is、 lambda、 nonlocal、 None、 not、 or、 pass、 raise、 return, True、 try.、 
while、with 和 yield。 [区 四 | 
另外 一 种 提高 可 读 性 的 好 方法 是 添加 注释 。Python 不 解释 符号 # 后 面 的 文本 。 例 如 ， 我 们 可 
以 这 样 在 代码 中 写 注释 : 
side = 1 # 单 位 正方 形 的 边 长 
radius = 1 # 单 位 圆 形 的 半径 
# 从 圆 C 的 面积 中 减 去 正方 形 S 的 面积 
areaC = pi*radius**2 


areaS = side*side 
difference = areaS - areaC 


Python 支持 多 重 赋值 。 以 下 语句 : 

x, y= 2,3 
将 x 绑 定 到 2, 将 y 绑 定 到 3。 赋 值 语 句 右 侧 的 每 个 表达 式 先 进行 求 值 ， 然后 分 别 与 左 侧 的 变量 名 绑 
定 。 这 种 操作 非常 方便 ， 因 为 可 以 使 用 多 重 赋值 交换 对 两 个 变量 的 绑 定 。 

例如 ， 以 下 代码 : 




















x, y= 2,3 

X，y = Yy, x 

print ('x ="', x) 

print ('y =', y) 
会 输出 : 

X=3 

y= 2 


2.1.3 Python IDE 


直接 在 shell 中 编写 程序 非常 不 方便 。 多 数 程序 员 更 愿意 在 集成 开发 环境 下 使 用 文本 编辑 器 编 
写 程序 。 

Python 标准 安装 包 中 提供 了 一 种 IDE， 这 就 是 IDLE?"。 随 着 Python 逐渐 流行 ， 其 他 IDE 也 开始 
涌现 。 这 些 新 的 IDE 经 常会 集成 一 些 常用 的 Python 程序 库 , 并 提供 IDLE 中 没有 的 便捷 。Anaconda 
和 Canopy 就 是 其 中 的 佼佼 者 ， 本 书 中 的 代码 就 是 使 用 Anaconda 编 写 和 测试 的 。 

IDE 是 一 种 应 用 程序 ， 和 计算 机 中 的 其 他 应 用 程序 一 样 ， 可 以 像 启 动 其 他 应 用 一 样 启 动 IDE， 
比如 双击 图 标 。 

Python IDE 提 供 以 下 功能 

口 具有 语法 高 亮 、 自 动 补 全 和 智能 缩 进 功能 的 文本 编辑 器 ; 








































































































@ 据说 ，Python 这 个 名 字 是 为 了 向 英国 喜剧 团体 Monty Python 致敬。 这 会 使 我 们 认为 IDLE 这 个 名 字 是 一 个 双关 语 ， 
指 的 是 该 团体 成 员 Eric Idle。 
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口 具有 语法 高 亮 功能 的 shell 程 序 ; 
口 集成 调试 器 ， 可 以 暂时 忽略 。 
IDE 启 劲 时 ， 会 打开 一 个 shell 窗 口 ， 你 可 以 在 其 中 输入 Python 命令 ， 同 时 还 会 有 一 个 文件 菜 
单 和 一 个 编辑 菜单 ( 还 可 能 有 其 他 菜单 ， 提 供 更 多 便捷 操作 ， 如 输出 程序 )。 
文件 菜单 中 的 常用 命令 包括 : 
口 创建 一 个 新 编辑 窗口 ， 你 可 以 在 其 中 输入 Python 程 序 ; 
口 打开 一 个 包含 Python 程 序 的 文件 ; 
口 将 当前 编辑 窗口 中 的 内 容 保 存 到 一 个 文件 (扩展 名 为 .py )。 
编辑 菜单 包含 标准 的 文本 编辑 命令 ( 如 复制 、 粘 贴 与 查找 )， 以 及 一 些 为 方便 编辑 Python 代 
人 码 专门 设计 的 命令 ( 如 区 有 段 缩 进 与 区 段 注 释 )。 
想 了 解 常用 IDE 的 更 多 知识 ， 可 以 访问 : 
http://docs.python.org/library/idle.html/ 


https://store.continuum.io/cshop/anaconda/ 












































https:/www.enthought.com/products/canopy/ 


2.2 程序 分 支 


迄今 为 止 ,我 们 讨论 的 计算 类 型 都 可 以 称 为 直线 型 程序 ,它们 按照 语句 出 现 的 顺序 逐条 执行 ， 
并 在 执行 完 所 有 语句 后 结束 。 这 种 用 直线 型 程序 实现 的 计算 没有 太 大 价值 ， 实 际 上 ， 无 聊 透 顶 。 
分 支 型 程序 更 有 价值 。 最 简单 的 分 支 语 句 是 条 件 语句 。 如 图 2-3 大 算 形 部 分 所 示 ， 条 件 语句 
包括 3 部 分 。 
口 一 个 测试 : 即 一 个 表达 式 ， 取 值 或 者 为 True， 或 者 为 False。 
口 一 个 代码 块 : 测试 条 件 取 值 为 True 时 执行 。 
口 一 个 可 选 代码 块 : 测试 条 件 取 值 为 False 时 执行 。 
条 件 语句 执行 完毕 后 ， 程 序 会 接着 执行 后 面 的 语句 。 




















































图 2-3 ”条 件 语句 流程 图 
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在 Python 中 ， 条 件 语句 具有 以 下 形式 : 


if BooLean expression: 
block of code 
else: 
block of code 


或 者 : 


if BooLean expression: 
block of code 


描述 Python 语 句 形式 的 时 候 ， 我 们 用 斜体 描述 可 能 出 现在 程序 该 处 的 代码 。 例 如 ，BooLean 
expression 表 示 一 个 表达 式 , 它 的 取 值 为 True 或 False, 可 以 用 在 if 保 留 字 后 面 。bLock of code 
表示 可 以 跟 在 else: 后 面 的 Python 语 句 序 列 。 

看 看 下 面 的 程序 ， 它 在 变量 x 为 偶数 的 时 候 输 出 Even， 否 则 输出 0dd: 


if x%2 == 0@: 

print "Even 
else: 
print "0dd ' 

print “Done with conditional 

当 x 除 以 2 的 余数 为 8 时 ， 表 达 式 x % 2 == 8 取 值 为 True， 和 否则 为 False。 请 记 住 ，== 是 用 来 
做 比较 运算 的 ， 因 为 = 用 于 赋值 。 

缩 进 在 Python 中 是 具有 语义 意义 的 。 例 如 ， 如 果 上 面 代码 中 的 最 后 一 条 语句 是 缩 进 的 ,那么 
它 就 会 属于 else 代 码 块 ， 而 不 是 与 条 件 语句 并 列 的 语句 。 

Python 在 对 缩 进 的 使 用 上 独树一帜 。 多 数 其 他 编程 语言 使 用 某 种 括号 表示 代码 块 ， 如 C 语 言 
使 用 { } 封 装 代码 块 。Python 的 缩 进 处 理 方法 的 优点 是 ， 它 确保 了 程序 的 外 观 结构 可 以 准确 表达 
程序 的 语义 结构 。 因 为 缩 进 在 语义 上 非常 重要 ， 所 以 每 行 代码 的 意义 都 很 重要 。 

当 条 件 语句 的 True 代 码 块 或 False 代 码 块 中 又 包含 一 个 条 件 语句 时 ,我 们 说 这 个 条 件 语句 是 
谱 套 的 。 在 下 面 的 代码 中 ， 最 高 层 if 语 句 的 两 个 分 支 中 都 有 骨 套 的 条 件 语句 。 

if x%2 == 0@: 

if x%3 == 6: 
print "Divisible by 2 and 3"' 
else: 
print "Divisible by 2 and not by 3" 


elif x%3 == 6: 
print "Divisible by 3 and not by 2 


上 面 代码 中 的 elif 表 示 else if。 
在 条 件 语句 的 检验 条 件 中 ， 使 用 复合 布尔 表达 式 是 非常 方便 的 ， 例 如 : 


ifx<yandXx z: 

print('x is least') 
elif y < 2: 

print('y is least') 
else: 

print('z is least') 
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条 件 语句 可 以 使 我 们 将 程序 编写 得 比 直线 型 程序 更 有 趣 , 但 分 支 型 程序 的 等 级 仍然 有 限 。 对 
于 某 种 等 级 的 程序 , 衡量 其 能 力 的 方法 可 以 是 看 看 它 能 够 运行 多 长 时 间 。 假定 每 行 代码 都 需要 以 单 
位 时 间 运 行 ， 那 么 有 n 行 代码 的 直线 型 程序 就 需要 n 个 单位 时 间 。 那 么 有 n 行 代码 的 分 支 型 程序 呢 ? 
它 运行 的 时 间 可 能 会 少 于 n 个 单位 时 间 ， 但 绝 不 会 超过 n 个 单位 时 间 ， 因 为 每 行 代码 至 多 运行 一 次 。 

如 果 一 个 程序 运行 的 最 长 时 间 是 由 程序 长 度 决定 的 , 那么 可 以 称 为 以 常数 时 间 运 行 。 这 并 不 
意味 着 它 每 次 运行 都 执行 相同 的 步 又， 而 意味 着 存在 一 个 常数 上 ， 使 得 这 个 程序 肯定 会 在 k 个 步 又 
之 内 结束 运行 。 其 中 隐 含 的 意义 是 ， 这 种 程序 的 运行 时 间 并 不 随 着 程序 输入 量 的 增加 而 增加 。 

常数 时 间 程 序 的 功能 很 有 限 。 例 如 , 我 们 要 编写 一 个 程序 计算 一 次 选举 中 的 投票 总 数 。 如 果 
有 人 可 以 写 出 一 个 程序 , 能 在 与 投票 数量 无 关 的 时 间 内 完成 这 个 任务 , 那 简 直 是 一 个 奇迹 。 实 际 
上 , 我 们 可 以 证 明 , 这 是 不 可 能 的 。 这 种 对 问题 固有 的 困难 性 的 研究 属于 计 工 复杂 度 的 范畴 。 在 
本 书 中 ,我 们 还 会 多 次 提 及 这 个 话题 。 

幸运 的 是 , 我 们 只 需要 另 一 种 编程 语言 基本 结构 一 一 迭代 一 一 即 可 编写 具有 任意 复杂 度 的 程 
序 。 我 们 会 在 2.4 节 介绍 这 部 分 内 容 。 


实际 练习 : 编写 一 个 程序 , 检查 3 个 变量 x、y 和 z, 输出 其 中 最 大 的 奇数 。 如 果 其 中 没有 奇数 ， 
就 输出 一 个 消息 进行 说 明 。 


2.3 字符 串 和 输入 


str 类 型 的 对 象 用 来 表示 由 字符 组 成 的 字符 串 。"str 类 型 的 字面 量 可 以 用 单 引 号 或 双 引 号 表 
示 ， 如 'abc' 或 "abc"。 字 面 量 '123' 表 示 有 3 个 字符 的 字符 串 ， 而 不 是 数值 123。 

试 着 在 Python 解释 器 中 输入 以 下 表达 式 〈 请 记 住 >>> 是 提示 符 ， 无 需 输 入 ): 

>>> “ay 

>>> 3*4 

>>> 3 "ay' 

>>> 3+4 

>>> 'a'+'a’ 

这 里 的 操作 符 + 被 称 为 重 载 ， 根 据 应 用 其 上 的 对 象 类 型 的 不 同 ， 它 的 意义 也 不 同 。 例 如 ， 应 
用 于 两 个 数值 对 象 时 ， 它 表示 相 加 ; 应 用 于 两 个 字符 串 时 ， 它 表示 连接 。 操 作 符 * 也 是 重 载 。 当 
它 两 侧 的 操作 数 都 是 数值 对 象 时 , 其 意义 和 你 想 的 一 样 。 当 应 用 于 一 个 int 类 型 和 一 个 str 类 型 的 
对 象 时 ， 它 就 成 了 重复 操作 符 : 表达 式 n * s。 这 里 n 是 一 个 int 对 象 ，s 是 一 个 str 对 象 ， 表 达 式 
的 值 就 是 一 个 将 s 重 复 n 次 的 str 对 象 。 例 如 ， 表 达 式 2 * 'John' 的 值 是 'JohnJohn' 。 逻 辑 是 这 样 
的 ， 就 像 数学 表达 式 3 * 2 等 于 2 + 2 + 2 一 样 ， 表 达 式 3 * 'a' 就 等 于 'a' + 'a' + 'a'。 

试 着 输入 : 

>>> a 

>>> 'a'*'"'a!' 





































































































































































































































































































与 其 他 语言 不 同 ，Python 中 没有 与 单个 字符 对 应 的 类 型 ， 而 使 用 长 度 为 1 的 字符 串 表 示 单 个 字符 。 
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每 行 代码 都 会 产生 一 个 错误 消息 。 第 一 行 的 错误 消息 是 : 
NameError: name 'a' is not defined 
因为 a 不 是 任何 一 种 类 型 的 字面 量 ， 解 释 器 会 将 它 当 作 一 个 名 称 。 但 因为 这 个 名 称 没有 与 任何 一 
个 对 象 绑 定 ， 所 以 对 它 的 使 用 会 引起 一 个 运行 时 错误 。 代 码 'a' * 'a' 产 生 的 错误 消息 是 : 
TypeError: can't multiply sequence by non-int of type 'str" 
类 型 检查 的 存在 是 件 好 事 。 它 可 以 检查 出 由 于 粗心 (有 时 确实 很 不 明显 ) 而 使 程序 停止 运行 

的 错误 ， 从 而 避免 程序 以 无 法 预知 的 状态 运行 ， 导致 更 严重 的 后 果 。Python 中 的 类 型 检查 不 如 某 

些 其 他 语言 严格 (如 Java )， 但 Python 3 中 的 检查 要 强 于 Python 2。 例 如 ，Python 3 中 明确 规定 了 < 

在 比较 两 个 字符 串 或 两 个 数值 时 的 意义 。 但 是 '4' < 3 应 如 何 取 值 ? 这 就 不 太 明 确 了 。Python 2 

的 设计 者 认为 这 个 表达 式 的 值 应 该 是 False， 因 为 所 有 数值 类 型 的 值 都 应 该 小 于 所 有 str 类 型 的 

值 。Python 3 以 及 多 数 其 他 现代 语言 设计 者 的 观点 则 是 ， 既 然 这 个 表达 式 没有 明显 的 意义 ， 那 么 

就 应 该 生成 一 条 错误 消息 。 

字符 串 是 Python 中 的 序列 类 型 之 一 。 所 有 序列 类 型 都 可 以 执行 以 下 操作 。 

口 可 以 使 用 len 函 数 求 出 字符 串 的 长 度 。 例 如 ，len( 'abc' ) 的 值 是 3。 

口 可 以 使 用 索引 从 字符 串 提取 单个 字符 。 在 Python 中 ， 所 有 索引 都 从 0 开始 。 例 如 ， 在 解释 
器 中 输入 'abc' [8] 会 显示 字符 串 'a' ， 输 入 'abc' [3] 会 产生 一 条 错误 消息 IndexError: 
string index out of range。 因 为 Python 使 用 8 表示 字符 串 中 第 一 个 元 素 ， 长 度 为 3 的 字 
符 串 中 最 后 一 个 元 素 的 索引 值 是 2。 可 以 使 用 负数 表示 字符 串 从 末尾 开始 的 索引 。 例 如 ， 
'abc'[-1] 的 值 是 'c'。 

口 可 以 使 用 分 片 操作 从 字符 串 提取 任意 长 度 的 子 串 。 如 果 s 是 个 字符 串 ， 那 么 表达 式 
s[start:end] 就 表示 s 中 从 索引 start 开 始 至 索引 end-1 结 束 的 子 串 。 例 如 ，'abc'[1:3] = 
'bc' 。 为 什么 在 索引 end-1 处 而 不 是 在 end 处 结束 呢 ? 这样 做 是 为 了 让 
'abc' [6:1len('abc')] 这 样 的 表达 式 具有 我 们 希望 的 值 。 如 果 冒 号 前 面 的 索引 值 省 略 , 那 
么 默认 值 为 6; 如 果 冒 号 后 面 的 索引 值 省 略 ， 那 么 默认 值 就 是 字符 串 的 长 度 。 于 是 ， 表 达 
式 'abc'[:] 在 语义 上 就 等 同 于 更 加 元 长 的 'abc'[8:1len('abc')]。 


2.3.1 输入 


Python 3 中 有 一 个 input 函 数 ， 可 以 直接 接受 用 户 输 入 。" 它 可 以 使 用 一 个 字符 串 作 为 参数 ， 
显示 在 shell 中 作为 提示 信息 ， 然 后 等 待 用 户 输入 , 用户 输入 以 回 车 键 结束 。 用 户 输入 的 行 信息 被 
看 作 一 个 字符 串 ， 并 成 为 这 个 函数 的 返回 值 。 

看 下 面 的 代码 : 


>>> name = input('Enter your name: ') 
Enter your name: George Washington 
















































































































































































Q@Python 2 中 有 两 个 函数 可 以 接受 用 户 输入 ，input 和 raw_input。 有 点 容易 混淆 的 是 , Python 2 中 的 raw_input 
在 语义 上 和 Python 3 中 的 ijnput 一 样 。 Python 2 中 的 Input 函数 将 输入 行当 作 Python 表 达 式 , 然后 推断 具体 类 型 。 
Python 2 程序 员 会 被 忠告 最 好 使 用 raw_input。 
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>>> print('Are you really', name, '?') 
Are you really George Washington ? 

>>> print('Are you really ' + name + '?') 
Are you really George Washington? 


请 注意 ,在 第 一 个 print 语 句 中 ,输出 结果 的 ?前 面 有 一 个 空格 。 这 是 因为 ， 当 print 语 句 有 多 个 
参数 时 ， 会 在 每 个 参数 对 应 的 值 之 间 加 上 一 个 空格 。 第 二 个 print 语 句 使 用 连接 生成 一 个 没有 多 
余 空 格 的 字符 串 ， 然 后 作为 唯一 参数 传递 给 了 print 语 句 。 

再 看 看 下 面 的 代码 : 


>>> n = input('Enter an int: ') 
Enter an int: 3 

>>> print(type(n)) 

<type 'str'> 


请 注意 ， 变 量 n 被 绑 定 到 字符 串 '3' ， 而 不 是 整数 3。 这 样 表达 式 n * 4 的 值 就 是 '3333' ， 而 不 是 
12。 好 消息 是 ， 只 要 字符 串 中 的 值 是 某 种 类 型 的 有 效 字 面 量 ， 就 可 以 对 字符 串 进 行 类 型 转换 。 

类 型 转换 在 Python 代码 中 很 常见 。 我 们 使 用 类 型 名 称 将 一 个 值 转换 为 这 种 类 型 。 例 如 ， 
int('3') * 4 的 值 是 12。 当 一 个 float 值 被 转换 成 int 值 时 ， 数 值 是 被 截断 的 (不 是 四 舍 五 入 )。 
例如 ，int(3.9) 的 值 是 int 3。 













































































2.3.2 ”杂谈 字符 编码 


多 年 以 来 ， 多 数 编程 语言 都 使 用 一 种 名 为 ASCI 的 标准 ， 在 计算 机 内 部 表示 字符 。 这 个 标准 
包括 128 个 字符 ， 足 够 表示 英语 中 经 常 出 现 的 特殊 字符 。 但 要 表示 世界 上 所 有 语言 中 的 字符 和 符 
号 ， 那 就 不 够 用 了 。 

最 近 几 年 ， 人 们 逐渐 转向 Unicode。Unicode 标 准 是 一 个 字符 编码 系统 ， 支 持 数字 化 处 理 和 所 
有 语言 的 书面 文本 显示 。 这 个 标准 中 的 字符 超过 120 000 个 ， 履 盖 了 129 种 从 古 至 今 的 语言 和 符号 
集合 。 通 过 各 种 内 部 字符 编码 ， 可 以 实现 Unicode 标 准 。 你 可 以 告诉 Python 使 用 何 种 编码 方式 ， 
在 程序 的 第 一 行 或 第 二 行 插 入 一 条 注释 即 可 : 

# -*- coding: encoding name -*- 
例如 : 

# -*- coding: utf-8 -*- 

可 以 指示 Python 使 用 UTF-8, 这 是 万 维 网 网 页 上 最 常 使 用 的 字符 编码 。 如 果 在 程序 中 找 不 到 这 样 
的 注释 ， 多 数 Python 实 现 会 默认 使 用 UTF-8。 
使 用 UTF-8 编 码 时 ， 如 果 文 本 编辑 器 允许 ， 那 么 可 以 直接 输入 下 面 的 代码 : 


print('Mluvis anglicky?') 
print('TaT 3T9 3 Tard E?') 


这 会 输出 : 























































































































Q@ 2016 年 ， 超 过 85% 的 万 维 网 网 页 使 用 UTF-8 编 码 。 











Mluvis anglicky? 


aT ITT I dad EE? 
你 可 能 想 知 道 我 是 如 何 输入 字符 串 'sar 309 3i 本 qT 守 阁 ?' 的。 实际 上 ， 我 并 未 手动 输入 。 





























为 多 数 万 维 网 网 页 是 使 用 UTF-8 编 码 的 ， 所 以 我 可 以 从 一 个 网 页 上 复制 这 个 字符 串 ， 然 后 直接 粘 
由 到 程序 。 
2.4 和 迭代 

我 们 在 2.2 节 末尾 得 出 结论 : 多 数 计算 任务 不 能 使 用 分 支 程序 完成 。 例 如 ， 假 设 要 编写 一 个 程 
序 ， 先 询问 用 户 想 输出 多 少 个 字母 X， 人 然后 输出 包含 该 数量 x 的 字符 串 。 可 以 考虑 使 用 下 面 的 代码 : 

numXs = int(input('How many times should I print the letter Xx? ')) 

toPrint = "" 

if numXs == 1: 

toPrint = 'X' 
elif numXs == 2: 


toPrint = 'XX' 
elif numXs == 3: 

toPrint = 'XXX' 
i 
print(toprint) 
大 家 很 快 就 会 发 现 , 需要 和 正 整数 一 样 多 的 条 件 从 名 
的 程序 : 

numXs = int(input('How many times should I print the letter Xx? ')) 

toPrint = "" 

concatenate X to toPrint numXs times 

print(toprint) 

需要 程序 多 次 做 同一 件 事情 的 时 候 ， 可 以 使 用 迭代 语句 。 一 般 的 迭代 ( 也 称 循环 ) 机 制 如 图 
2-4 和 矩形 框 中 所 示 。 与 条 件 语句 类 似 ， 它 从 一 个 测试 条 件 开始 。 如 果 测 试 条 件 取 值 为 True， 程 序 
就 执行 一 次 循环 体 ， 然 后 重新 检查 测试 条 件 。 一 直 重 复 这 个 过 程 ， 直 到 测试 条 件 为 False， 此 后 
程序 控制 权 就 传递 给 迭代 语句 后 面 的 代码 。 























无 穷 个 。 我 们 真正 需要 的 是 类 似 于 下 面 



































图 2-4 ”迭代 流程 图 
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可 以 使 用 while 语 句 完成 图 2-4 所 示 的 循环 。 看 下 面 的 示例 代码 : 


# Square an integer, the hard way 
X=3 
ans = 6 
itersLeft = x 
while (itersLeft != 6): 
ans = ans + x 
itersLeft = itersLeft - 1 
print(str(x) + '*' + str(x) + "= "+Sstr(ans)) 


代码 首先 将 变量 x 和 整数 3 绑 定 ， 然 后 开始 通过 重复 相 加 求 x 的 平方 。 每 次 程序 运行 到 循环 开 
始 的 测试 条 件 时 ， 各 个 变量 的 值 都 会 发 生变 化 ， 如 图 2-5 中 表格 所 示 。 这 个 表格 是 我 们 通过 对 代 
码 的 手工 模拟 得 到 的 。 也 就 是 说 ,我 们 假装 自己 是 Python 解 释 器 ,使 用 铅笔 和 纸 执行 程序 。 使 用 
铅笔 和 纸 看 起 来 颇具 古风 ， 但 这 是 弄 清楚 程序 如 何 运 行 的 一 种 非常 好 的 方法 。™ 






























































测试 # x | ans | itersLeft 
1 3 9 3 
2 3 3 2 
3 3 6 
4 3 9 9 




















图 2-5 手工 模拟 一 个 小 程序 


当 程 序 第 四 次 检查 测试 条 件 时 , 测试 条 件 的 值 为 False, 控制 流 前 进 到 循环 语句 后 面 的 print 
语句 。 那 么 对 于 何 种 x 值 ， 程 序 能 正常 结束 呢 ? 我 们 分 3 种 情况 讨论 : x == 6、x > 8 和 x < 68。 

假设 x == 6， 那么 itersLeft 的 初始 值 也 为 96， 循 环 体 根本 不 会 执行 。 

假设 x > 86, 那么 itersLeft 的 初始 值 会 大 于 96， 循环 体会 至 少 执行 一 次 。 每 执行 一 次 循环 体 ， 
itersLeft 的 值 就 会 减 1。 这 说 明 ， 如 果 itersLeft 开 始 于 一 个 大 于 8 的 数 ， 那 么 在 有 限 次 的 循环 
迭代 后 ，itersLeft 会 等 于 9。 此 时 循环 测试 条 件 的 值 为 False， 控 制 流 会 前 进 到 while 语 名 后面 
的 代码 。 

假设 x < 6， 那 么 可 怕 的 事情 将 会 发 生 。 控 制 流 会 进入 循环 ， 每 一 次 迭代 都 会 使 tersLeft 
更 加 远离 6。 因此， 程序 会 一 直 不 停 地 执行 循环 体 (或 者 直到 另外 一 件 可 怕 的 事情 发 生 ， 比 如 内 
存 溢出 ), 那么 如 何 改 正 程序 的 这 个 缺陷 呢 ?” 可 以 将 itersLeft 初 始 化 为 x 的 绝对 值 ,循环 将 结束 ， 
但 会 输出 一 个 负 值 。 如 果 修 改 循环 内 部 的 赋值 语句 ， 改 为 ans = ans + abs(x)， 那 么 代码 可 以 
得 到 正确 的 结 


实际 练习 : 将 以 下 代码 中 的 注释 蔡 换 为 while 循 环 语 句 。 


numXs = int(input( "How many times should I print the letter Xx? ')) 
toPrint = "" 





















































中 使 用 钢笔 和 纸 ， 其 至 文本 编辑 器 也 可 以 手工 模拟 程序 。 








#concatenate X to toPrint numXs times 
print(toprint) 


有 时 候 ， 不 用 检查 循环 条 件 就 跳出 循环 是 非常 方便 的 。 我 们 可 以 使 用 break 语 句 结束 它 所 在 
的 循环 ， 将 控制 流转 到 紧 随 循环 语句 后 面 的 代码 中 。 例 如 ， 看 下 面 的 代码 : 

#Find a positive integer that is divisible by both 11 and 12 

x=1 


while True: 
if x%11 == 6 and x%12 == 6: 








break 
x=x+1 
print(x, "is divisible by 11 and 12') 


会 输出 : 

132 is divisible by 11 and 12 

如 果 在 租 套 的 循环 语句 ( 位 于 另 一 个 循环 语句 内 部 的 循环 语句 ) 中 执行 break 语 句 ， 那 么 
break 语 句 会 结束 内 层 循环 语句 。 

我 们 已 经 介绍 了 相当 多 的 Python 知识 ， 足 够 编写 一 些 有 趣 的 程序 来 处 理 数 值 和 字符 串 。 第 3 
章 先 暂停 对 Python 的 学 习 ， 使 用 已 经 掌握 的 知识 解决 一 些 简单 的 问题 。 


实际 练习 : 编写 一 个 程序 ， 要 求 用 户 输 入 10 个 整数 ， 然 后 输出 其 中 最 大 的 奇数 。 如 果 用 户 没 
有 输入 奇数 ， 则 输出 一 个 消息 进行 说 明 。 
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我 们 已 经 学 习 了 一 些 Python 语 言 基 础 结构 ,现在 使 用 这 些 结构 编写 一 些 简单 的 程序 。 通 过 
种 方式 ， 我 们 再 顺便 介绍 几 种 语言 结构 和 算法 技术 。 


3.1 穷 举 法 


当 一 个 整数 存在 整数 立方 根 时 ， 图 3-1 中 的 代码 会 对 其 进行 输出 。 如 果 输 入 不 是 一 个 完全 立 
方 数 ， 则 输出 一 个 消息 进行 说 明 。 


这 





# 寻 找 完全 立方 数 的 立方 根 
x = int(input('Enter an integer: ')) 
ans = 6 
while ans**3 < abs(x): 
ans = ans + 1 


if ans**3 != abs(x): 

print(x, "is not a perfect cube') 
else: 

if x < 6: 


ans = -ans 
print('Cube root of', x,'is', ans) 























图 3-1 ”使 用 穷 举 法 求 立 方 根 








那么 ， 对 于 何 种 x 值 ， 程 序 能 正常 结束 呢 ? 答案 是 “所 有 整数 "。 证 明 方 法 非常 简单 。 
口 表达 式 ans**3 的 值 从 9 开始 ， 并 随 着 每 次 循环 逐渐 变 大 ; 

口 当 这 个 值 达到 或 超过 abs (x) 时 ， 循环 结 

口 因为 abs (x) 的 值 总 为 正 ， 所 以 循环 结束 前 进行 的 迭代 次 数 必然 是 有 限 的 。 

编写 循环 时 ， 应 该 使 用 一 个 合适 的 递减 函数 。 这 个 函数 具有 如 下 属性 : 

口 它 可 以 将 一 组 程序 变量 映射 为 一 个 整数 ; 

口 进入 循环 时 ， 它 的 值 是 非 负 的 ; 

口 当 它 的 值 生 0 时 ， 循 环 结 

D 每 次 循环 它 的 值 都 会 减 小 。 





















































图 3-1 的 while 循 环 中 ， 递 减 国 数 是 什么 呢 ? 是 abs(x) - ans**3。 

下 面 ， 我 们 制造 一 些 错误 ， 看 看 会 发 生 人 什么。 首先 ， 将 语句 ans = 8 注释 掉 。Python 解 释 器 
会 输出 一 条 错误 消息 : 

NameError: name 'ans' is not defined 
因为 解释 器 将 ans 绑 定 到 任何 对 象 之 前 ， 都 要 先 找 到 与 ans 绑 定 的 值 。 下 面 ， 我 们 还 原 ans 的 初始 
化 语句 ， 将 语句 ans = ans + 1 替换 为 ans = ans， 再 试 着 求 8 的 立方 根 。 如 果 你 厌倦 了 漫长 的 等 
待 ， 可 以 按 ctrl+c(〈 同时 按 住 ctrl 键 和 c 键 )， 这 样 就 可 以 回 到 shell 的 用 户 提示 符 。 

下 面 ， 在 循环 开始 部 分 添加 一 条 语句 : 


print('Value of the decrementing function abs(x) - ans**3 is'， 
abs(x) - ans**3) 


然后 重新 运行 程序 。 这 次 程序 会 一 次 又 一 次 地 输出 : 

Value of the decrementing function abs(x) - ans**3 is 8 

程序 会 永远 运行 下 去 ， 因 为 循环 体 没有 减少 ans**3 和 abs(x) 之 间 的 差距 。 遇 到 这 种 程序 不 
会 正常 结束 的 情况 时 ， 经 验 丰富 的 程序 员 经 常会 搬入 一 些 print 语 句 ， 就 像 这 次 一 样 ， 测 试 递减 
函数 是 否 真 的 递减 。 

这 个 程序 使 用 的 算法 技术 称 为 穷 举 法 ， 是 猜测 与 检验 算法 的 一 个 变种 。 我 们 枚 举 所 有 可 能 
性 ， 直 至 得 到 正确 答案 或 者 尝试 完 所 有 值 。 乍 看 上 去 ， 这 是 一 种 极其 思春 的 解决 方法 。 但 令 人 
惊奇 的 是 ， 穷 举 法 经 常 是 解决 问题 的 最 实用 的 方法 。 它 实现 起 来 特别 容易 ， 并 且 易 于 理解 。 还 
有 ， 在 很 多 情况 下 ， 它 的 运行 速度 也 足够 快 。 请 一 定 记 得 将 你 添加 的 pirnt 语 句 删除 或 者 注释 
掉 ， 并 插入 语句 ans = ans + 1， 然 后 试 着 求 出 1 957 816 251 的 立方 根 。 程 序 几乎 瞬间 结 
然后 ， 再 试 试 7 406 961 012 236 344 616。 

眼见 为 实 ， 即 使 需要 几 百 万 次 猜测 ， 也 不 是 什么 问题 。 现 代 计 算 机 的 速度 真是 太 快 了 , 它 执 
行 一 条 指令 只 需 1 纳 秒 一 一 10 亿 分 之 1 秒 。 要 想 描述 它 有 多 快 还 真有 些 困难 ， 光 传输 1 英尺 ( 约 0.3 
米 ) 只 需要 1 纳 秒 多 一 点 。 男 外 一 种 形容 方式 是 ,在 你 的 声音 传输 100 英 尺 的 时 间 内 ,现代 计算 机 
可 以 执行 几 百 万 条 指令 。 

只 是 为 了 好 玩 ， 试 着 运行 以 下 代码 : 

maxVal = int(input('Enter a postive integer: ')) 

i i «< maxVal: 

i=i+1 

print(i) 
看 看 你 需要 输入 一 个 多 大 的 整数 ， 才 能 感受 到 在 输出 结果 之 前 有 个 明显 的 时 间 间 隔 。 

实际 练习 : 编写 一 个 程序 ， 要 求 用 户 输入 一 个 整数 ， 然 后 输出 两 个 整数 root 和 pwr,， 满足 e < 


pwr < 6， 并 且 root**pwr 等 于 用 户 输入 的 整数 。 如 果 不 存在 这 样 一 对 整数 ， 则 输出 一 条 消息 进 
行 说 明 。 
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3.2 ”for 循环 


迄今 为 止 , 我 们 使 用 的 while 循 环 是 高 度 程 式 化 的 , 即 都 按照 一 个 整数 序列 进行 迭代 。 Python 
提供 了 一 种 语言 机 制 简化 使 用 这 种 迭代 方式 的 程序 ， 这 就 是 for 循 环 。 

for 语 句 的 一 般 形 式 如 下 ( 回忆 一 下 ,斜体 文本 是 对 程序 中 该 处 代码 的 一 种 描述 ， 并 不 是 实 
际 的 代码 ): 


for variable in sequence: 
Code block 


for 后 面 的 变量 被 绑 定 到 序列 中 的 第 一 个 值 ， 并 执行 下 面 的 代码 块 。 然 后 变量 被 赋 给 序列 中 的 第 
二 个 值 ， 再 次 执行 代码 块 。 该 过 程 一 直 继 续 ， 直 到 穷尽 这 个 序列 或 者 执行 到 代码 块 中 的 break 
语句 。 

绑 定 到 变量 的 序列 值 通 常 使 用 内 置 函数 range 生 成 ， 它 会 返回 一 系列 整数 。range 也 数 接受 3 
个 整数 参数 : start、stop 和 step。 生 成 一 个 数列 : start、start + step、start + 2#step ， 
等 等 。 如 果 step 是 正 数 ， 最 后 一 个 元 素 就 是 小 于 stop 的 最 大 整数 start + i * step。 如 果 step 
是 负数 , 最 后 一 个 元 素 就 是 大 于 stop 的 最 小 整数 start + i * step。 例如 , 表达 式 range(5，46,， 16) 
会 得 到 序列 5，15，25，35，range(46，5，-16) 会 得 到 序列 486，386，286，16。 如 果 省 略 第 一 个 
参数 ， 它 会 取 默 认 值 6; 如 果 省 略 最 后 一 个 参数 ( 步 长 ) ， 它 会 取 默 认 值 1。 例 如 ，range(86, 3) 
和 range(3) 都 会 生成 序列 96，1，2。 数 列 中 的 数值 是 以 “ 按 需 产生 ”的 原则 生成 的 ， 所 以 即使 
range(16888869) 这 样 的 表达 式 也 只 占用 很 少 内 存 。"5.2 节 将 更 加 深入 地 讨论 range 孙 数 。 

我 们 还 可 以 通过 字面 量 指定 for 循 环 中 迭代 的 序列 ， 如 [86，3，2]， 但 这 种 方式 并 不 常用 。 
看 下 面 的 代码 : 




















































































































X = 4 

for i in range(86，Xx) : 
print(i) 

会 输出 : 

9 

1 

2 

3 

再 看 看 这 段 代 码 : 

x=4 

for i in range(@, x): 
print(i) 
X = 5 








它 会 引起 一 个 问题 ， 如 果 在 循环 中 改变 x 的 值 ， 能 否 影响 迭代 次 数 ? 答案 是 “不 能 "。 在 for 循 环 


























@ 在 Python 2 中 ， 调 用 range 函 数 会 生成 整个 序列 。 因 此 ，range(186866666) 这 样 的 表达 式 会 占用 大 量 内 存 。 在 
Python 2 中 ，xrange 与 Python 3 中 range 的 运行 方式 是 一 样 的 。 
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那 行 代码 中 ，range 函 数 的 参数 在 循环 的 第 一 次 近 代 之 前 就 已 经 被 解释 器 求 值 ， 随 后 的 迭代 中 不 
会 再 次 求 值 。 

为 了 看 一 下 实际 运行 情况 ， 看 下 面 的 代码 : 

x=4 


for j in range(x): 
for i in range(x): 











print(i) 
X = 2 
会 输出 : 

9 

1 

2 

3 

9 

1 

9 

1 

9 

1 


因为 外 层 循环 中 的 range 函 数 只 被 求 值 一 次 ， 而 内 层 循环 中 的 range 函 数 则 在 每 次 执行 内 层 
for 语 句 时 都 被 求 值 。 

图 3-2 中 的 代码 重新 实现 了 求 立方 根 的 穷 举 法 。for 循 环 中 有 一 个 break 语 句 ， 使 循环 遍历 完 
成 迭代 序列 中 的 所 有 元 素 之 前 终止 。 








# 寻 找 完 全 立方 数 的 立方 根 
x = int(input( "Enter an integer: ')) 
for ans in range(86，abs(x)+1) : 
if ans**3 >= abs(x): 
break 
if ans**3 != abs(x): 
print(x, 'is not a perfect cube') 
else: 
if x < 6: 
ans = -ans 
print('Cube root of', x,'is', ans) 























图 3-2 ”使 用 for 循 环 和 break 语 句 
可 以 使 用 in 操 作 符 配合 for 循 环 语句 ， 非 常 方便 地 遍历 字符 串 中 的 字符 。 例 如 : 


total = 6 
for c in "12345678 ' : 

total = total + int(c) 
print(total) 


这 段 代码 对 字符 串 '12345678 ' 中 的 数字 进行 求 和 ， 并 输出 最 后 的 总 数 。 
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实际 练习 : 假设 s 是 包含 多 个 小 数 的 字符 串 ， 由 逗号 隔 开 ， 如 s = "1.23，2.4，3.123' 。 纺 
写 一 个 程序 ， 输 出 s 中 所 有 数值 的 和 。 


3.3 近似 解 和 二 分 查找 


如 果 有 人 请 你 编写 一 个 程序 ， 求 任意 非 负数 的 平方 根 ， 你 应 该 怎么 做 ? 

你 可 能 会 要 求 一 个 更 为 精确 的 问题 定义 。 例如， 如 果 要 找 出 2 的 平方 根 ,程序 应 该 怎么 做 ? 2 
的 平方 根 不 是 一 个 有 理 数 ， 这 意味 着 我 们 不 可 能 将 它 的 值 表示 成 一 个 有 限 的 数字 序列 (或 一 个 
float 类 型 的 数 )， 所 以 这 个 问题 从 一 开始 就 是 无 解 的 。 

实际 上 , 我 们 想 要 的 是 一 个 能 够 找 出 近似 解 平方 根 的 程序 。 也 就 是 说 ,能 够 找到 足够 接近 实 
际 平方 根 的 近似 解 即 可 。 我 们 会 在 后 面 仔细 讨论 这 个 问题 。 眼 下 ， 我们 先 认 为 “足够 接近 ”的 意 
思 就 是 ， 近 似 解 位 于 实际 解 附近 的 一 个 常数 范围 内 ， 这 个 常数 我 们 称 为 epsilon。 
图 3-3 中 的 代码 实现 了 求 近似 平方 根 的 算法 。 它 使 用 了 一 个 我 们 以 前 没有 介绍 过 的 操作 符 +=。 
赋值 语句 ans += step 在 语义 上 等 同 于 稍 显 宛 长 的 代码 ans = ans + step。 操 作 符 -= 和 *= 也 是 
如 此 。 

























































































X = 25 
epsilon = 6.61 
step = epsilon**2 
numGuesses = 6 
ans = 0.6 
while abs(ans**2 - x) >= epsilon and ans <= X: 
ans += step 
numGuesses += 1 
print('numGuesses =', numGuesses) 
if abs(ans**2 - x) >= epsilon: 
print('Failed on square root of', x) 
else: 
print(ans, "is close to square root of', x) 




















图 3-3 ”使 用 穷 举 法 求 近似 平方 根 
我 们 又 一 次 使 用 了 穷 举 法 。 请 注意 , 这 种 求 平方 根 的 方法 和 你 在 中 学 学 过 的 用 铅笔 求 平方 根 
的 方法 完全 不 同 。 使 用 计算 机 解决 问题 的 最 好 方法 通常 与 手工 解决 问题 的 方法 大 相 径 庭 。 
上 面 的 代码 运行 后 会 输出 : 

















numGuesses = 49990 
4.999666666661688 is close to square root of 25 


这 个 程序 没有 发 现 25 是 个 完全 平方 数 ， 没 有 输出 5， 我 们 是 不 是 应 该 大 失 所 望 呢 ? 不 ， 程 序 
做 了 它 应 该 做 的 。 尽 管 输出 5 是 挺 好 的 ， 但 与 输出 一 个 足够 接近 5 的 数 相 比 ， 并 没有 好 到 哪儿 去 。 
如 果 我 们 设 x = 8.25， 你 认为 会 发 生 什 么 情况 ?” 程序 会 找到 一 个 足够 接近 8.5 的 数 吗 ? 不 ， 


它 会 输出 : 
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numGuesses = 2561 
Failed on square root of 6.25 


穷 举 法 是 一 种 查找 技术 ， 只 在 被 查找 集合 中 包含 答案 时 才 有 效 。 这 个 例子 中 ， 我 们 对 0 和 x 
之 间 的 值 进行 枚 举 。 当 x 在 0 和 1 之 间 时 ，x 的 平方 根 不 在 这 个 区 间 内 。 改 正 的 方法 是 ， 修 改 while 
循环 第 一 行 中 and 的 第 二 个 操作 数 ， 得 到 : 

while abs(ans**2 - x) >= epsilon and ans*ans <= X: 

下 面 思考 一 下 ， 程 序 会 运行 多 长 时 间 。 和 迭代 的 次 数 依赖 于 答案 与 0 的 距离 以 及 步 长 。 大 致 说 
来 ， 程 序 会 执行 while 循 环 至 多 x/step 次 。 

我 们 在 较 大 的 数 上 试验 一 下 这 段 代 码 ， 如 x = 123 456。 程序 会 运行 一 段 时 间 ， 然 后 输出 : 


numGuesses = 3513631 
Failed on square root of 123456 


发 生 了 什么 ? 肯定 存在 一 个 浮 点 数 , 在 0.01 的 范围 内 近似 于 123 456 的 平方 根 。 为 什么 程序 没 
有 找到 它 ? 问题 在 于 我 们 的 步 长 太 大 ， 程 序 跳 过 了 所 有 合适 的 答案 。 试 着 将 步 长 设 为 
epsilon**3， 再 运行 一 下 程序 。 程 序 最 终 肯定 会 找到 一 个 合适 的 答案 ,但 你 未 必 会 有 耐心 等 到 
它 运行 结束 。 

程序 大 概 会 进行 多 少 次 猜测 呢 ? 步 长 为 0.000001，123 456 的 平方 根 大 约 为 351.36。 这 意味 着 
程序 要 进行 351 000 000 次 左右 的 猜测 ,才能 找到 一 个 满意 的 答案 。 我 们 可 以 从 一 个 接近 答案 的 数 
开始 猜测 ， 这 样 能 快 一 些 ,但 前 提 是 我 们 知道 答案 。 

是 时 候 通 过 其 他 方法 解决 这 个 问题 了 。 我 们 要 改 弦 更 张 , 选择 一 个 更 好 的 算法 ,而 不 是 微调 
现在 的 算法 。 但 在 这 之 前 ， 我 们 先 来 看 一 个 问题 ， 这 个 问题 乍 看 上 去 与 求 平方 根 完全 没有 关系 。 

思考 这 样 一 个 问题 : 如 何在 英语 字典 中 找 出 由 给 定 字 母 序列 开头 的 单词 ” 穷 举 法 在 理论 上 可 
以 解决 这 个 问题 。 你 可 以 从 第 一 个 单词 开始 ， 检 查 每 个 单词 ， 直 到 找到 以 这 些 字 母 开 头 的 单词 ， 
或 者 找 遍 所 有 单词 。 如 果 字 典 中 有 7 个 单词 ,那么 平均 w2 次 检查 就 可 以 找到 这 个 单词 。 如 果 这 个 
单词 不 在 字典 中 ， 就 需要 "次 检查 。 当 然 ， 那 些 使 用 纸 质 〈 不 是 在 线 版 ) 字典 查找 单词 的 人 绝对 
不 会 使 用 这 种 方法 。 

幸运 的 是 , 出 版 字典 的 人 会 不 酬劳 兰 地 将 单词 按照 字典 顺序 排列 。 这 就 使 我 们 可 以 将 字典 翻 
到 单词 可 能 存在 的 那 一 页 ( 例如， 以 字母 m 开 头 的 单词 ， 可 能 在 字典 的 中 间 页 附近 )。 如 果 单 词 
开头 的 字母 在 字典 顺序 上 位 于 这 页 中 第 一 个 单词 的 前 面 , 我 们 就 往 前 找 ; 如 果 单 词 开头 字母 在 这 
页 中 最 后 一 个 单词 的 后 面 ,我们 就 往 后 找 。 和 否则 , 我 们 就 检查 这 些 字母 能 和 否 和 本 页 中 的 某 个 单词 
相 匹 配 。 

下 面 , 我 们 将 同样 的 理念 应 用 于 求 x 的 平方 根 这 个 问题 。 假 设 我 们 知道 x 的 平方 根 的 一 个 非常 
好 的 近似 解 位 于 0 和 max 之 间 ， 就 可 以 利用 数值 的 全 序 性 。 也 就 是 说 ， 对 于 任意 两 个 不 同 的 数 谓 
和 n,，， 都 有 n1 < n2， 或 者 n1 > n2。 所 以 ,我 们 可 以 认为 x 的 平方 根 位 于 下 面 直线 上 的 某 处 : 

0 max 
并 开始 在 这 个 区 间 内 查找 。 因 为 我 们 不 需要 知道 从 哪里 开始 查找 ， 所 以 可 以 从 中 间 开 始 : 


6 猜测 max 
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如 果 这 不 





正确 答案 ( 多 数 时 候 不 是 )， 那 么 就 看 看 它 是 太 大 还 是 太 小 。 如 有 果 太 大 ， 我 们 就 











是 
可 以 知道 答案 肯定 位 于 左 侧 ; 如 果 太 小 ,我们 就 知道 答案 肯定 位 于 右 侧 。 然 后 可 以 在 更 小 的 区 间 





上 重复 这 个 过 程 。 图 3-4 给 出 了 这 种 算法 的 实现 和 测试 。 





x = 25 
epsilon = 6.61 
numGuesses = 0 
low = 6.6 
high = max(1.06, x) 
ans = (high + Low)/2.6 
while abs(ans**2 - x) >= epsilon: 
print('low =", low, 'high =', high, 'ans =', ans) 
numGuesses += 1 
if ans**2 < x: 
low = ans 
else: 
high = ans 
ans = (high + Low)/2.6 
print('numGuesses ='，numGuesses) 
print(ans, 'is close to square root of', x) 























图 3-4 ”使 用 二 分 查找 求 近似 平方 根 








运行 上 面 的 代码 ， 会 输出 : 


low = 0.6 high = 25 ans = 12.5 

low = 6.6 high = 12.5 ans = 6.25 

low = 0.6 high = 6.25 ans = 3.125 

low = 3.125 high = 6.25 ans = 4.6875 

low = 4.6875 high = 6.25 ans = 5.46875 

low = 4.6875 high = 5.46875 ans = 5.678125 

low = 4.6875 high = 5.678125 ans = 4.8828125 

low = 4.8828125 high = 5.678125 ans = 4.98646875 

low = 4.98646875 high = 5.678125 ans = 5.029296875 

low = 4.98646875 high = 5.629296875 ans = 5.6648828125 
low = 4.98646875 high = 5.6648828125 ans = 4.99267578125 
low = 4.99267578125 high = 5.6648828125 ans = 4.998779296875 


low = 4.998779296875 high = 5.6048828125 ans = 5.6018310546875 
numGuesses = 13 
5.66636517578125 is close to square root of 25 





请 注意 ,这 段 程序 找 出 的 答案 与 前 面 算法 并 不 相同 。 结 果 非 常 好 ,因为 这 个 答案 也 完全 符合 问题 





的 要 求 。 


更 重要 的 是 , 我 们 发 现 每 经 过 一 次 循环 迭代 , 待 查找 空间 都 缩小 了 一 半 。 因 为 这 种 算法 每 一 








步 都 将 查找 空间 分 为 两 部 分 ， 所 以 称 为 二 分 查找 。 二 分 查找 是 对 前 面 算法 的 一 个 习 
的 算法 只 能 在 每 次 迭代 后 将 查找 空间 缩小 一 部 分 。 





EE 大 改进 ,之 前 





我 们 再 试 试 x = 123 456， 这 次 程序 只 进行 30 次 猜测 就 找到 一 个 可 以 接受 的 答案 。 





那 x = 123 456 789 呢 ? 只 需 45$ 次 猜测 。 


也 
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我 们 应 该 使 用 这 种 算法 计算 平方 根 ， 这 没什么 好 说 的 。 此 外 , 将 算法 中 的 2 改 成 3,， 我 们 就 可 
以 计算 一 个 非 负数 的 近似 立方 根 。 第 4 章 会 介绍 一 种 语言 机 制 ， 使 我 们 可 以 将 代码 功能 扩展 为 计 
算 任 意 次 方 的 根 。 


实际 练习 : 图 3-4 中 ， 如 果 语 句 x = 25 被 替换 为 x = -25， 代 码 会 如 何 运行 ? 


实际 练习 : 应 该 如 何 修改 图 3-4 中 的 代码 ,才能 求 出 一 个 数 的 立方 根 ? 这 个 数 既 可 以 是 正 数 ， 
也 可 以 是 负数 。( 提示 : 修改 1ow 保 证 答案 位 于 待 查 找 区 域 。) 


3.4 ”天 于 浮 点 数 


很 多 时 候 ，float 类 型 的 数值 是 实数 的 一 个 非常 好 的 近似 。 但 “很 多 时 候 ” 并 不 代表 所 有 情 
况 ， 这 个 功能 失效 时 会 引起 不 可 思议 的 后 果 。 例 如 ， 试 着 运行 以 下 代码 : 
x=0.06 
for i in range(10): 
Xx=x+0.1 
if x == 1.0: 
print(x, '= 1.0') 
else: 
print(x, "is not 1.6')s 


与 多 数 人 一 样 ， 你 可 能 会 对 输出 的 结果 大 吃 一 惊 : 

0.9999999999999999 is not 1.6 
为 什么 会 先 执行 el se 从 句 呢 ? 

要 想 弄 清楚 发 生 这 种 情况 的 原因 , 我 们 应 该 知道 浮 点 数 在 计算 机 中 是 如 何 表示 的 。 为 了 搞 清 
这 一 点 ， 我 们 需要 了 解 二 进 制 数 。 

第 一 次 学 习 十 进 制 数 ( 也 就 是 基数 为 10 的 数 ) 时 ,我 们 就 知道 任何 一 个 十 进 制 数 都 可 以 用 数 
字 序列 0123456789 中 的 数字 表示 。 最 右边 的 数字 是 10" 位 ,向 左 进 一 位 是 10! 位 ,以 此 类 推 。 例 如 ， 
十 进 制 数字 序列 302 表 示 3 x 100+0x 10+2 x1。 长 度 为 z 的 序列 可 以 表示 多 少 个 不 同 的 数 呢 ? 长 
度 为 1 的 序列 可 以 表示 10 个 数字 (0~9 ) 中 的 任何 一 个 ; 长 度 为 2 的 序列 可 以 表示 100 个 数 ( 0~99 )。 
一 般 来 说 ， 长 度 为 n 的 序列 可 以 表示 10" 个 不 同 的 数 。 
二 进 制 数 ( 基数 为 2 的 数 ) 的 原理 也 是 一 样 的 。 二 进 制 数 也 可 以 表示 成 一 个 数字 序列 ， 其 中 
不 是 0 就 是 1。 这 些 数字 经 常 称 为 位 。 最 右边 的 数字 是 2" 位 ， 向 左 进 一 位 是 2' 位 ， 以 此 类 推 。 比 如 ， 
二 进 制 数 字 序 列 101 表 示 1 x 4+0 x2+1x1=5。 那 么 长 度 为 的 序列 可 以 表示 出 多 少 个 不 同 的 数 
呢 ? 2 个 。 


实际 练习 : 二 进 制 数 10011 等 于 十 进 制 中 的 哪个 数 ? 

可 能 是 因为 多 数 人 都 有 10 根 手指 , 所 以 我 们 喜欢 使 用 十 进 制 表示 数值 。 然 而 ， 所 有 现代 计算 
机 系统 都 使 用 二 进 制 表 示 数 值 。 这 并 不 是 因为 计算 机 生来 有 2 根 手指 ， 而 是 因为 容易 制造 硬件 开 
关 ， 也 就 是 仅 有 2 种 状态 〈 开 或 闭 ) 的 设备 。 计 算 机 使 用 二 进 制 表示 法 ， 而 人 类 使 用 十 进 制 表示 
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法 ， 这 就 会 导致 认 知 上 的 不 一 致 。 

在 几乎 所 有 现代 编程 语言 中 , 非 整 数 数值 都 使 用 浮 点 数 表 示 。 现 在 , 我们 先 假设 计算 机 内 部 
使 用 的 是 十 进 制 表示 法 ， 要 将 一 个 数 表示 成 一 个 整数 对 : 有 效 数 字 和 指数 。 例 如 ，1.949 可 以 表 
示 为 数 对 (1949, -3)， 它 代表 1949x10- 的 积 。 

有 效 数字 的 数量 决定 了 数值 能 被 表示 的 精度 。 例如， 如 果 只 有 两 位 有 效 数 字 ， 那么 就 无 法 准 
确 表示 1.949。 它 会 被 转换 成 1.949 的 某 个 近似 值 ， 在 这 里 是 1.9。 这 种 近似 值 称 为 会 入 值 。 

现代 计算 机 使 用 二 进 制 表示 法 , 而 不 是 十 进 制 表示 法 。 我 们 使 用 二 进 制 表 示 有 效 数 字 和 指数 ， 
而 不 是 十 进 制 , 并 且 使 用 2 作为 指数 的 底数 , 而 不 是 10。 例 如 , 0.625( 5/8 ) 会 表示 成 数 对 (101, -11)， 
因为 5/8 是 二 进 制 的 0.101，-11 是 -3 的 二 进 制 表示 ， 所 以 数 对 (101, -11) 代 表 5 x 2 ”= 5/8 = 0.625。 

那 Python 中 写作 8.1 的 十 进 制 分 数 110 呢 ? 若 使 用 4 位 有 效 数 字 ， 最 好 的 表示 方式 是 (0011， 
-101), 等 于 3/32, 也 就 是 0.09375。 如 果 有 5 位 有 效 的 二 进 制 数字 , 可 以 将 0.1 表 示 成 (11001, -1000)， 
等 于 25/256， 也 就 是 0.09765625。 那 么 ,需要 多 少 位 有 效 数字 才能 使 用 浮 点 数 准确 表示 0.1 呢 ?” 需 
要 无 穷 位 ! 不 存在 两 个 整数 sig 和 exp， 使 sig x 2“?= 0.1。 所 以 无 论 Python (或 任何 一 种 语言 ) 使 
用 多 少 位 有 效 数 字 表 示 浮 点 数 ， 都 只 能 表示 0.1 的 一 个 近似 值 。 在 多 数 Python 版 本 中 , 使 用 53 位 精 
度 表示 浮 点 数 ， 所 以 为 保存 十 进 制 0.1 而 使 用 的 有 效 数字 为 : 
11661166116611661166116611661166116611661166116611661 
它 等 于 十 进 制 中 的 : 

9.1666666666666666655511151231257827621181583464541615625 
非常 接近 1/10， 但 并 不 是 1/10。 

回 到 本 节 开 始 的 那 段 神秘 代码 ， 为 什么 


X = 0.6 
for i in range(10): 
x=x+0.1 
if x == 1.6: 
print(x, '= 1.6') 
else: 
print(x, "is not 1.6 ') 


会 输出 : 

9.9999999999999999 js not 1.6 

我 们 现在 知道 ， 测 试 条 件 x == 1.6 产 生 的 结果 是 False， 因 为 x 绑 定 的 值 不 是 确切 的 1.6。 如 
果 在 else 从 名 的 末尾 加 上 print x == 16.6 * 68.1 这 行 代码 ,会 输出 什么 呢 ?” 它 会 输出 False， 
因为 在 循环 迭代 中 ， Python 至 少 有 一 次 使 用 了 所 有 有 效 数字 并 做 了 舍 人 。 这 可 不 是 小 学 老师 教 给 
我 们 的 内 容 ， 但 将 0.1 相 加 10 次 真 的 不 等 于 10 乘 以 0.1 的 值 。” 

顺便 说 一 下 , 如 果 对 浮 点 数 进行 舍 人 操作 , 可 以 使 用 round 孙 数 。 表达 式 round(x, numDigits) 
































































































































Q 在 Python 2 中 ， 另 一 种 奇怪 的 事情 发 生 了 。 因 为 输出 语句 会 自动 进行 某 种 伟人 ， 所 以 else 从 名 会 输出 1.8 is not 
1.6。 
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会 返回 一 个 浮 点 数 , 等 于 将 x 保留 小 数 点 后 numDigits 位 的 舍 入 值 ,例如 , print round(2**0.5, 3) 
会 输出 1.414， 作 为 2 的 平方 根 的 近似 值 。 

实数 和 浮 点 数 之 间 的 区 别 真 的 很 重要 吗 ? 谢 天 谢 地 ,大 多 数 时 候 没 有 什么 问题 。 几 乎 没有 这 
种 情况 : 1.6 可 以 接受 但 6.9999999999999999 却 不 行 。 但 是 , 需要 注意 对 相等 关系 的 检验 。 我 们 
已 经 看 到 ,使 用 == 比 较 两 个 浮 点 数 会 产生 不 可 思议 的 结果 。 更 合适 的 做 法 是 , 看 看 两 个 浮 点 数 是 
否 足 够 接近 ， 而 不 是 这 两 个 数 是 否 相 等 。 例 如 ， 编 写 代码 时 ，abs (x - y) < 686.6681 就 比 x == y 
更 好 。 

另 一 个 需要 注意 的 问题 是 累积 的 含 人 误差 。 多 数 时 候 不 会 出 现 问题 ,因为 计算 机 中 保存 的 数 
值 有 时 候 比 预期 值 大 一 点 , 有 时 候 又 小 一 点 。 但 在 某 些 程序 中 , 误差 可 能 会 沿 着 同一 个 方向 累积 。 


3.5 牛顿 - 拉 弗 森 法 


最 常用 的 近似 算法 通常 被 认为 出 自 艾 萨 克 ' 牛顿 之 手 ， 称 为 “牛顿 法 ”， 但 有 时 也 称 为 “ 牛 
顿 - 拉 弗 森 法 ”"。 可 以 用 它 求 出 很 多 函数 的 实数 根 , 但 我 们 只 用 它 求 单 变量 多 项 式 的 实数 根 。 要 
想 将 这 个 方法 扩展 到 多 变量 多 项 式 ， 需 要 数学 和 算法 两 方面 的 知识 。 

单 变量 ( 按照 惯例 ,我 们 用 x 表示 变量 ) 多 项 式 或 者 是 0, 或 者 是 一 个 有 限 数 目的 非 零 单项 式 
的 和 ， 如 3x?*+2x+3。 每 一 项 ( 如 3x? ) 都 由 一 个 常数 (项 的 系数 ， 这 里 是 3 ) 乘 以 变量 ( 这 里 为 x ) 
的 非 负 整数 次 方 ( 这 里 为 2 次 方 ) 组 成 。 每 项 中 变量 的 指数 称 为 这 一 项 的 次 数 。 多 项 式 的 次 数 就 
是 各 项 中 的 最 大 次 数 。 比 如 ，3 (0 次 )、2.5x+2 (1 次 ) 和 3z (2 次 )。 与 之 相反 ，2/x 和 x 都 不 是 
多 项 式 。 

如 果 p 是 个 多 项 式 ，r 是 个 实数 ， 我 们 就 可 以 用 p(n) 表 示 当 x=7r 时 多 项 式 的 值 。 多 项 式 p 的 根 就 
是 方程 p= 0 的 解 ， 也 就 是 实数 r+， 使 得 p(r) = 0。 例 如 ,“ 求 24 的 近似 平方 根 ” 这 个 问题 可 以 用 公式 
表示 为 : 找到 一 个 x， 使 得 x? -24 > 0。 

牛顿 证 明了 一 个 定理 : 如 果 存 在 一 个 值 ouess 是 多 项 式 p 的 根 的 近似 值 ， 那 么 guess - 
p(guess)/p(euess) 就 是 一 个 更 好 的 近似 值 ?， 其 中 p' 是 p 的 一 次 导数 。 

对 于 任意 的 常数 k 和 任意 的 系数 c， 多 项 式 cx? + K 的 一 次 导数 是 2cx。 例 如 ，x? 一 的 一 次 导数 
是 2x。 因 此 ， 如 果 当 前 的 猜测 是 >， 那 么 可 以 选择 >- 0- 昌 27 作 为 下 一 个 猜测 。 这 种 方法 称 为 逐 
次 逼近 。 图 3-5 中 的 代码 展示 了 如 何 使 用 这 种 思想 快速 找 出 近似 平方 根 。 



























































































































































































































































@ 约瑟夫 ' 拉 弗 森 几乎 与 牛顿 同时 提出 了 类 似 的 方法 。 
@ 函数 1) 的 一 次 导数 可 以 看 作 当 x 变化 时 fx) 的 变化 趋势 。 如 果 你 之 前 没有 接触 过 导数 , 没关系 , 你 不 需要 理解 它们 ， 
甚至 不 需要 理解 什么 是 多 项 式 ， 只 要 看 懂 牛 顿 法 是 如 何 实现 的 即 可 。 
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# 利 用 牛顿 - 拉 弗 森 法 寻找 平方 要 
# 寻 找 X， 满 足 Xk#k2-24 在 epsilon 和 6 之 间 
epsilon = 6.61 
k = 24.6 
guess = k/2.6 
while abs(guess*guess - k) >= epsilon: 
guess = guess - (((guess**2) - k)/(2*guess)) 
print('Square root of', k, 'is about', guess) 


























图 3-5 ”牛顿 - 拉 弗 森 法 





实际 练习 : 在 牛顿 - 拉 弗 森 法 的 实现 中 添加 一 些 代码 ， 跟 踪 求 平方 根 所 用 的 迭代 次 数 。 在 
这 段 代 码 的 基础 上 编写 一 个 程序 ， 比 较 牛 顿 - 拉 弗 森 法 和 二 分 查找 法 的 效率 ( 你 会 发 现 牛顿 - 拉 
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六 数 、 作 用 域 与 抽象 

















到 目前 为 止 ， 我 们 已 经 介绍 了 数值 、 赋 值 语句 、 输 入 /和 输出、 比较 语句 和 循环 结构 。 它 们 在 
Python 中 有 多 大 用 处 呢 ? 从 理论 上 说 , 它们 可 以 满足 你 的 所 有 需求 , 也 就 是 说 , 它 是 图 灵 完 备 的 。 4 
这 意味 着 如 果 一 个 问题 可 以 通过 计算 来 解决 ， 它 就 可 以 通过 我 们 介绍 过 的 那些 语句 来 解决 。 

这 并 不 是 说 你 只 能 使 用 这 些 语句 。 我 们 已 经 介绍 了 很 多 语言 机 制 , 但 代码 还 只 是 一 个 单独 的 
旨 令 序列 ， 所 有 指令 都 混合 在 一 起 。 例 如 ， 第 3 章 我 们 使 用 了 图 4-1 中 的 代码 。 












































x = 25 
epsilon = 6.61 
numGuesses = 6 
low = 6.6 
high = max(1.06, x) 
ans = (high + Low)/2.6 
while abs(ans**2 - x) >= epsilon: 
numGuesses += 1 
if ans**2 < x: 
low = ans 
else: 
high = ans 
ans = (high + Low)/2.6 
print('numGuesses =', numGuesses) 
print(ans, "is close to square root of', x) 


























图 4-1 使 用 二 分 查找 求 近似 平方 根 


这 段 代 码 逻 辑 清 晰 ， 但 缺少 通用 性 。 它 只 对 变量 x 和 epsilon 表 示 的 值 有 效 。 这 意味 着 ， 如 
果 我 们 想 重 用 这 段 代 码 ， 必 须 先 复制 它 ， 而 且 可 能 需要 编辑 变量 名 ， 再 将 其 粘贴 到 我 们 需要 的 地 
方 。 因 此 ， 我 们 很 难 在 其 他 更 复杂 的 程序 中 使 用 这 段 代 码 。 

而 且 ， 如 果 我 们 想 计 算 的 是 立方 根 而 不 是 平方 根 , 那么 就 必须 编辑 代码 。 如 果 我 们 想 要 一 个 
程序 既 可 以 计算 平方 根 也 可 以 计算 立方 根 (或 者 在 两 个 不 同 的 地 方 计算 平方 根 )， 那 么 这 个 程序 
中 就 会 有 很 多 几乎 相同 的 大 块 代码 。 这 是 一 件 非 常 不 好 的 事情 。 一 个 程序 包含 的 代码 越 多 ， 就 越 
容易 出 错 ， 也 越 难以 维护 。 举 例 来 说 , 假设 求 平方 根 的 初始 程序 中 有 一 个 错误 ,而 直到 测试 程序 
的 时 候 这 个 错误 才 被 曝光 , 那么 很 有 可 能 只 有 一 处 修改 了 求 平方 根 的 代码 , 而 忘记 了 其 他 地 方 的 
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类 似 的 代码 也 同样 需要 修改 。 
Python 提供 了 若干 种 语言 特性 ， 可 以 相对 容易 地 扩展 和 重用 代码 ， 其 中 最 重要 的 就 是 函数 。 


4.1 函数 与 作用 域 


我 们 已 经 使 用 过 了 很 多 内 置 函 数 ， 如 图 4-1 中 的 max 和 abs。 程 序 员 可 以 定义 并 使 用 自己 的 函 
数 ， 就 像 内 置 函数 一 样 ， 这 将 在 代码 编写 便捷 性 方面 产生 一 个 质 的 飞跃。 


4.1.1 函数 定义 
在 Python 中 ， 按 如 下 形式 进行 函数 定义 ”: 


def name of Function (List of formal parameters): 
body of function 


例如 ， 我 们 可 以 使 用 如 下 代码 定义 函数 maxvVal”: 


def maxVal(x, y): 
if x > y: 
return x 
else: 
Peturn y 


def 是 个 保留 字 ， 告 诉 Python 要 定义 一 个 函数 。 函 数 名 ( 本 示例 中 是 maxVal ) 只 是 个 名 称 ， 用 来 
引用 函数 。 

函数 名 后 面 括号 中 的 一 系列 名 称 ( 本 例 中 是 x, y ) 是 函数 的 形式 参数 。 使 用 函数 时 ， 形 式 参 
数 在 函数 调用 时 被 绑 定 ( 和 赋值 语 名 一样 ) 到 实际 参数 (通常 指 代 函数 调用 时 的 参数 )。 例 如 ， 
下 面 的 函数 调用 

maxVal(3, 4) 
会 将 x 绑 定 到 3 ，y 绑 定 到 4。 
函数 体 可 以 是 任何 一 段 Python 代 码 。 "但 是 , 还 有 一 个 特殊 的 return 语 句 , 只 能 用 在 函数 体 中 。 
函数 调用 是 个 表达 式 , 和 所 有 表达 式 一 样 , 它 也 有 一 个 值 。 这 个 值 就 是 被 调用 函数 返回 的 值 。 
例如 ， 表 达 式 maxVal(3，4)*maxVal(3，2) 的 值 是 12， 因 为 第 一 次 对 maxVal 的 调用 返回 了 4， 第 
二 次 则 返回 3。 请 注意 ， 执 行 return 语 句 会 结束 对 函数 的 调用 。 

总 结 一 下 ， 当 函数 被 调用 时 ， 会 执行 如 下 过 程 。 

(1) 构成 实 参 的 表达 式 被 求 值 ， 函 数 的 形 参 被 绑 定 到 求 值 结 果 。 例 如 , 调用 maxVal(3 + 4, z) 
会 在 解释 器 求 值 这 次 调用 时 将 形 参 x 绑 定 到 7， 将 形 参 y 绑 定 到 变量 z 的 值 。 

(2) 执行 点 (要 执行 的 下 一 条 指令 ) 从 调用 点 转 到 函数 体 的 第 一 条 语句 。 












































































































































人) 再 次 提醒 ， 和 斜体 文本 用 来 描述 Python 代码 。 

@ 实际 上 会 直接 使 用 内 置 函 数 max， 而 不 是 重新 定义 一 个 函数 。 

@ 后 面 我 们 将 会 看 到 ， 这 种 函数 表示 方法 要 比 数学 家 口中 的 “函数 ”更 具 一 般 性 。 这 种 表示 方法 在 20 世 纪 50 年 代 末 
期 因为 Fortran 2 编程 语言 得 到 普及 。 
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(3) 执行 函数 体 中 的 代码 ， 直 至 遇 到 return 语 句 。 这 时 ，return 后 面 的 表达 式 的 值 就 成 为 这 
次 函数 调用 的 值 ; 或 者 没有 语句 可 以 继续 执行 ， 这 时 函数 返回 的 值 为 None; 如 果 return 后 面 没 
有 表达 式 ， 这 次 调用 的 值 也 为 None。 

(4) 这 次 函数 调用 的 值 就 是 返回 值 。 

(5) 执行 点 移动 到 紧 跟 在 这 次 函数 调用 后 面 的 代码 。 

参数 有 一 个 特性 ,， 称 为 Lambda 抽 和 象 "。 它 允许 程序 员 编 写 的 代码 所 处 理 的 不 是 具体 对 象 , 而 
是 函数 调用 者 选 定 用 作 实 参 的 任何 对 象 。 


实际 练习 : 编写 一 个 函数 isIn, 接受 两 个 字符 串 作 为 参数 ,如 果 一 个 字符 串 是 另 一 个 字符 串 
的 一 部 分 ， 返回 True， 否 则 返回 False。 提 示 : 你 可 以 使 用 内 置 的 str 类 型 的 操作 符 in。 


4.1.2 ”关键 字 参 数 和 默认 值 


在 Python 中 ， 有 两 种 方法 可 以 将 形 参 绑 定 到 实 参 。 最 常用 的 方法 是 使 用 位 置 参 数 ， 这 是 我 们 
目前 使 用 过 的 唯一 一 种 方法 ， 即 第 一 个 形 参 绑 定 到 第 一 个 实 参 ， 第 二 个 形 参 绑 定 到 第 二 个 实 参 ， 
以 此 类 推 。Python 还 支持 关键 字 参 数 : 形 参 根据 名 称 绑 定 到 实 参 。 看 下 面 的 函数 定义 : 

def printName(firstName, lastName, reverse): 

if reverse: 
print(lastName + ', ' + firstName) 


else: 
print(firstName, lastName) 



















































































函数 printName 假 定 firstNamelastName 是 字符 串 变 量 ，reverse 是 布尔 型 变量 。 如 果 
reverse == True， 就 输出 lastName，firstName， 和 否则 输出 firstName lastName。 
以 下 每 行 代 码 都 是 对 printName 的 等 价 调用 : 


printName('Olga', 'Puchmajerova', False) 

printName('Olga', 'Puchmajerova', reverse = False) 

printName('Olga', lastName = 'Puchmajerova', reverse = False) 

printName(lastName = "Puchmajerova', firstName = ' Olga', 
reverse = False) 


尽管 关键 字 参 数 可 以 在 实 参 列表 中 以 任意 顺序 出 现 , 但 将 关键 字 参 数 放 在 非 关 键 字 参数 后 面 
是 不 合法 的 。 因 此 ， 下 面 的 代码 会 产生 一 条 错误 信息 : 

printName('Olga', lastName = "PuchmaJjerova'，False) 

关键 字 参 数 经 常 与 默认 参数 值 结合 使 用 。 例 如 下 面 的 代码 : 


def printName(firstName, lastName, reverse = False): 
if reverse: 
print(lastName + ', "+ firstName) 
else: 
print(firstName, lastName) 
























































@ “Lambda 抽 象 ”这 个 名 词 来 自 阿 隆 佐 ' 印 奇 在 20 世 纪 三 四 十 年 代 提 出 的 一 些 数学 理论 。 
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默认 值 允 许 程序 员 不 指定 所 有 参数 即 可 调用 函数 。 如 : 


printName('Olga', "PuchmaJjerova ' ) 
printName('Olga', 'Puchmajerova', True) 
printName('Olga', 'Puchmajerova', reverse = True) 


会 输出 : 


Olga Puchmajerova 
Puchmajerova, Olga 
Puchmajerova, Olga 


最 后 两 次 对 printName 的 调用 在 语义 上 是 等 价 的 ， 只 不 过 最 后 一 次 调用 可 以 让 阅读 代码 的 人 
知道 True 的 意义 。 
4.1.3 ”作用 域 

我 们 看 另 一 个 小 例子 : 


def f(x): #name x used as formal parameter 























y=1 
x=x+y 
print('x = " ，X) 
return x 
X=3 
y= 2 
z = f(x) #value of x used as actual parameter 
print('z =', 2z) 
print('x =", x) 
print('y =', y) 
代码 运行 后 会 输出 : 


y 
为 什么 会 这 样 呢 ? 调 用 f 时 ， 形 参 x 在 函数 内 部 被 绑 定 到 实 参 x 的 值 。 需 要 特别 注意 的 是 ， 尽 
管 实 参 和 形 参 的 名 称 是 一 样 的 , 但 它们 并 不 是 同一 个 变量 。 每 个 函数 都 定义 了 一 个 命名 空间 , 也 
称 为 作用 域 。 形 式 参数 x 和 局 部 变量 y 在 f 内 部 使 用 , 仅 存在 于 f 定 义 的 作用 域 中 。 函 数 体 中 的 赋值 
语句 x = x + y 将 局 部 名 称 x 绑 定 到 对 象 4。f 中 的 赋值 语句 根本 不 会 影响 f 作 用 域 之 外 的 名 称 x 和 y 
的 绑 定 。 

对 “作用 域 ”可 以 进行 如 下 理解 。 

(1) 在 最 顶层 ， 比 如 shell 层 ， 有 一 个 符号 表 会 跟踪 记录 这 一 层 所 有 的 名 称 定义 和 它们 当前 的 
绑 定 。 

(2) 调用 函数 时 ,会 建立 一 个 新 的 符号 表 ( 常 称 为 栈 帧 ) 这 个 表 跟 踪 记 录 函 数 中 所 有 的 名 称 
定义 (包括 形 参 ) 和 它们 当前 的 绑 定 。 如 果 函 数 体 内 又 调用 了 一 个 函数 ， 就 再 建立 一 个 栈 帧 。 
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(3) 函数 结束 时 ， 它 的 栈 帧 也 随 之 消失 。 
在 Python 中 ， 可 以 通过 阅读 程序 文本 确定 一 个 名 称 的 作用 域 。 这 称 为 静态 或 词法 作用 域 。 图 
4-2 中 的 示例 代码 说 明了 Python 的 作用 域 规则 。 














def f(x): 
def g(): 
X = "abc 
print('x =", x) 
def h(): 
Z = X 
print('z =", Zz) 
x=x+1 
print('x =", x) 
h() 
g() 
print('x =", x 
return g 





_ 


X=3 

z = f(x) 
print('x = " ，X) 
print('z =', z) 
z() 














图 4-2” 舱 套 作用 域 




















与 这 段 代 码 相 关 的 栈 帧 历史 如 图 4-3 所 示 。 图 中 第 一 列 包含 的 是 函数 f 之 外 的 名 称 集合 ， 也 就 
是 变量 x 和 y， 以 及 也 数 名 称 f。 第 一 条 赋值 语句 将 x 绑 定 到 3。 























图 4-3” 栈 帧 
赋值 语句 z = f(x) 首 先 使 用 与 x 绑 定 的 值 调用 函数 f{， 对 表达 式 f(x) 求 值 。 进 入 函数 fF 时， 会 
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建立 一 个 栈 帧 ， 如 第 二 列 所 示 。 栈 帧 中 的 名 称 是 x〈 形 参 ， 并 不 是 调用 上 下 文中 的 x )、g 和 h。 变 
量 g 和 h 被 绑 定 到 function 类 型 的 对 象 ， 这 些 函 数 的 特性 由 f 中 的 函数 定义 给 出 。 

在 函数 f 中 调用 函数 h 时 ， 会 建立 另 一 个 栈 帧 ， 如 第 三 列 所 示 。 这 个 栈 帧 仅 包 含 局 部 变量 z。 
为 什么 不 包含 x 呢 ? 只 有 一 个 名 称 是 函数 的 形 参 或 是 被 绑 定 到 函数 体内 一 个 对 象 的 变量 时 ， 才 能 
添加 到 函数 作用 域 。 在 函数 h 内 部 , x 仅 仅 出 现在 一 个 赋值 语句 的 右 侧 。 出 现 一 个 没有 和 函数 体内 
( 函数 h 的 内 部 ) 任何 一 个 对 象 绑 定 的 名 称 〈 本 例 中 是 x ) 时 ,解释 絮 会 搜索 与 该 函数 定义 上 层 作 
用 域 相 关 的 栈 帧 ( 即 与 f 相 关 的 栈 帧 )。 如 果 发 现 这 个 名 称 ( x )， 就 使 用 名 称 绑 定 的 值 (4 )。 如 果 
没有 发 现 ， 就 产生 一 条 错误 消息 。 

函数 h 返 回 后 ， 与 这 次 对 h 的 调用 相关 的 栈 帧 就 会 消失 〈 从 栈 的 顶端 弹出 )， 如 第 四 列 所 示 。 
请 注意 ,不 能 从 栈 的 中 间 移 除 帧 ， 只 能 移 除 最 近 添 加 的 帧 。 正 是 因为 它 具 有 这 种 “后 和 人 先 出 ”的 
性 质 ， 所 以 我 们 称 之 为 栈 ( 就 像 自助 餐厅 中 待 用 的 盘子 )。 

然后 调用 函数 g， 一 个 包含 g 中 局 部 变量 x 的 栈 帧 被 添加 进来 (第 五 列 )。 函 数 g 返 回 后 ， 这 个 
帧 被 弹出 (第 六 列 )。 函 数 f 返 回 后 ， 包 含 函数 f 相 关 名 称 的 栈 帧 被 弹出 ， 我 们 又 回 到 最 初 的 栈 帧 
(第 七 列 )。 

请 注意 ， 函 数 f 返 回 时 ， 尺 管 变量 g 不 再 存在 ,但 与 这 个 名 称 绑 定 过 的 function 类 型 的 对 象 
仍然 存在 。 因 为 函数 就 是 对 象 ， 而 且 可 以 像 任何 一 种 其 他 对 象 一 样 被 返回 。 所 以 ，z 可 以 绑 定 到 f 
返回 的 值 ， 而 且 z() 也 是 函数 调用 ， 可 以 调用 在 f 中 与 名 称 g 绑 定 的 函数 一 一 尽管 名 称 g 在 f 的 上 下 
文 之 外 是 不 可 见 的 。 

那么 ， 图 4-2 中 的 代码 会 输出 什么 呢 ? 它 会 输出 : 



















































































4 
4 
abc 
4 
3 
< 


Nx xx Nx 
用 


function f.<locals>.g at 6Xx1692a7516> 
x = abc 


引用 名 称 时 ,顺序 并 不 重要 。 只 要 在 函数 体内 任何 地 方 有 对 象 与 名 称 进 行 绑 定 〈 即使 在 名 称 
作为 赋值 语句 左 侧 项 之 前 ， 就 已 经 出 现在 某 个 表达 式 中 )， 就 认为 这 个 名 称 是 函数 的 局 部 变量 "。 
看 下 面 的 代码 : 


def f(): 
print(x) 























def g(): 
print(x) 
x=1 





QD Python 的 这 种 设计 思想 值得 商 椎 。 
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调用 函数 f 时 ， 会 输出 3。 但 在 函数 g 中 ， 执 行 到 print 语 句 时 ,会 产生 一 条 错误 信息 : 


UnboundLocalError: local variable 'x' referenced before assignment 
发 生 这 种 情况 是 因为 ，print 语 句 后 面 的 赋值 语句 使 x 成 为 函数 g 中 的 局 部 变量 ,执行 print 语 句 
时 还 没有 被 赋值 。 

尝 了 吗 ? 多 数 人 都 需要 一 点 时 间 才 能 搞 清 楚 作 用 域 的 规则 。 但 不 要 太 在 意 , 现在 你 只 需 勇 往 
直 前 ， 大胆 使 用 函数 。 你 通常 会 发 现 ， 在 函数 中 只 需 使 用 局 部 变量 , 那些 作用 域 中 的 微妙 之 处 毫 
无 影响 。 





























4.2 规范 


图 4-4 定 义 了 一 个 函数 findRoot ， 扩 展 了 图 4-1 中 求 平 方 根 的 二 分 查找 算法 。 图 中 还 有 一 个 函 
数 testFindRoot ， 用 来 测试 findRoot 是 否 像 我 们 预期 的 那样 工作 。 











def findRoot(x, power, epsilon): 
"""x 和 epsilon 是 整数 或 者 浮上 点数，power 是 整数 
epsilon>8 且 power>=1 
如 果 y**power 和 Xx 的 差 小 于 epsilon， 就 返回 浮上 点数 y， 
否则 返回 None""" 
if x < 6 and power%2 == 6: #Negative number has no even-powered 
#roots 
return None 
low = min(-1.06, x) 
high = max(1.06, x) 
ans = (high + low)/2.06 
while abs(ans**power - x) >= epsilon: 
if ans**power < X: 
low = ans 
else: 
high = ans 
ans = (high + Low)/2.6 
return ans 


def testFindRoot(): 
epsilon = 6.6661 
for x in [8.25，-6.25，2，-2，8，-8]: 
for power in range(1, 4): 
print('Testing x =', str(x), 'and power = 
result = findRoot(x, power, epsilon) 


，Power) 


if result == None: 
print(" No root') 
else: 
print(" '", result**power, '~=', XxX) 











图 4-4 求 根 的 近似 值 
函数 testFindRoot 差 不 多 与 findRoot 一 样 长 。 对 于 新 手 程序 员 来 说 ， 编 写 这 样 的 测试 函数 
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好 像 是 白费 力气 。 但 熟练 的 程序 员 深 知 ， 编 写 测试 代码 经 常 是 “一 本 万 利 ” 的 事情 。 它 完全 能 够 
避免 在 调试 (找到 程序 不 工作 的 原因 并 修复 ) 过 程 中 一 次 又 一 次 地 向 shell 输 入 测试 用 例 ， 还 可 以 
促使 我 们 思考 哪 种 测试 最 具 启 发 性 。 

三 引号 之 间 的 文本 在 Python 中 称 为 文档 字符 串 。 按 照 惯例 ，Python 程 序 员 使 用 文档 字符 串 提 
供 函 数 的 规范 。 可 以 使 用 内 置 函 数 help 访 问 这 些 字符 串 。 例 如 ， 如 果 我 们 进入 shell 并 输入 
help(abs)， 系 统 会 显示 : 


Help on built-in function abs in module built-ins: 









































abs(x) 
Return the absolute value of the argument. 


如 果 图 4-4 中 的 代码 已 经 被 加 载 到 IDE 中 ， 那 么 在 shell 中 输入 help(findRoot) 会 显示 : 


findRoot(x, power, epsilon) 
Assumes x and epsilon int or float, power an int, 
epsilon > 6 & power >= 1 
Returns float y such that y**power is within epsilon of x. 
If such a float does not exist, it returns None 


如 果 在 编辑 器 中 输入 findRoot(， 会 显示 形 参 列表 。 

函数 的 规范 定义 了 函数 编写 者 与 使 用 者 之 间 的 约定 。 我 们 将 函数 使 用 者 称 为 客户 。 可 以 认为 

约定 包括 以 下 两 部 分 。 

口 假设 : 客户 使 用 函数 时 必须 满足 的 前 提 条 件 ， 通常 是 对 实 参 的 限制 。 它 几乎 总 是 限定 每 
个 参数 可 以 接受 的 变量 类 型 ,偶尔 对 一 个 或 多 个 参数 的 取 值 添加 限制 条 件 。 例 如 ， 函 数 
findRoot 的 文档 字符 串 前 两 行 描述 了 客户 必须 满足 的 假设 。 

口 保证 : 调用 方法 满足 条 件 时 ， 函 数 应 当 实现 的 功能 。 函 数 findRoot 的 文档 字符 串 后 两 行 

描述 了 函数 必须 实现 的 结果 保证 。 

函数 是 一 种 创建 基本 程序 元 素 的 方式 ,我 们 非常 乐于 像 内 置 函数 一 样 使 用 求 根 函 数 和 很 多 其 

他 复杂 操作 ,就 像 使 用 内 置 函 数 max 和 abs 一 样 。 函 数 通过 分 解 和 抽象 的 功能 ,大 大 提高 了 编程 的 

便捷 性 。 

分 解 实 现 了 程序 结构 化 。 它 允许 我 们 将 程序 分 成 多 个 逻辑 上 独立 的 部 分 , 并 可 以 通过 各 种 设 

定 实现 重用 。 

抽象 隐藏 了 细节 。 它 允 许 我 们 将 一 段 代码 当 作 黑箱 使 用 。 所 谓 黑 箱 , 是 指 那 些 我 们 不 能 看 见 、 

不 需 看 见 其 至 根本 不 想 看 见 内 部 细节 的 东西 。" 抽 象 的 精髓 在 于 ， 在 具体 背景 之 下 ， 保 留 那些 该 

保留 的 , 忽略 那些 该 忽略 的 。 在 编程 中 有 效 使 用 抽象 的 关键 在 于 ,找到 一 个 对 于 抽象 创建 者 和 抽 

象 潜在 使 用 者 都 很 合适 的 相关 性 表示 。 这 才 是 真正 的 程序 设计 艺术 。 

抽象 归根 结 底 就 是 忽略 。 有 很 多 方式 可 以 对 此 形象 地 进行 解释 ， 例如， 多 数 年 轻 人 的 听觉 

器 官 。 



























































































































































QD “无 知 是 福 ， 大 智 若 思 。 托马斯 ， 格 雷 
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年 轻 人 : 今 晚 我 可 以 用 一 下 汽车 吗 ? 
父母 : 可 以 ， 但 必须 在 夜里 12 点 之 前 回来 ， 而 且 要 加 满 油 。 
年 轻 人 听 到 的 : 可 以 。 


年 轻 人 忽略 了 所 有 那些 他 认为 不 相关 的 烦人 细节 。 抽 象 是 个 多 对 一 的 过 程 。 即 使 父母 说 的 是 : 
“可 以 ,但 必须 在 凌晨 2 点 之 前 回来 ， 别 弄 脏 车 。” 也 一 定 会 被 抽象 为 “可 以 ”。 

再 打 个 比方 ,假设 你 需要 准备 一 门 包含 25 个 课时 的 计算 机 科学 课程 。 完 成 任务 的 一 种 方式 是 ， 
雇 25 位 教授 ， 请 每 个 人 按照 他 们 最 感 兴趣 的 题目 准备 一 节 1 小 时 的 课程 。 尽 管 这 样 你 能 够 得 到 25 
小 时 的 精彩 演讲 , 但 整个 课程 给 人 的 感觉 就 像 是 皮 兰 德 类 的 戏剧 《六 个 寻找 作者 的 剧 中 人 》 一 样 
(或 者 像 那 种 请 了 15 位 嘉宾 的 政治 学 课程 )。 如 果 每 位 教授 都 单独 工作 , 他 们 就 无 法 将 自己 课程 中 
的 内 容 与 其 他 课程 中 的 内 容 联系 起 来 。 

不 管 怎样 , 在 不 产生 太 多 不 必要 的 工作 量 的 情况 下 , 我 们 应 该 让 所 有 人 都 知道 其 他 人 在 干 什 
么 。 这 就 是 抽象 的 作用 。 你 可 以 写 出 25 份 课程 说 明 书 , 说 明 每 节 课 中 学 生 应 该 学 到 的 内 容 , 但 并 
不 给 出 具体 的 授课 细节 。 这 样 在 教学 上 的 效果 可 能 不 是 最 好 的 ， 但 至 少 会 起 到 一 些 作 用 。 

组 织 机 构 使 用 程序 员 团 队 完 成 任务 时 ,就 采用 这 种 方法 。 给 定 一 个 模块 的 规范 ,程序 员 就 可 
以 着 手 实现 这 个 模块 ， 而 不 用 过 于 担心 团队 中 的 其 他 程序 员 在 做 什么 。 而 且 ， 其 他 程序 员 也 可 以 
使 用 这 份 规范 编写 使 用 这 个 模块 的 代码 ， 不 用 过 于 担心 这 个 模块 是 如 何 实现 的 。 

findRoot 的 规范 就 是 对 所 有 满足 其 实现 的 一 种 抽象 。findRoot 的 客户 可 以 假定 实现 满足 了 
规范 ， 但 不 能 做 更 多 假设 。 例 如 ， 客 户 可 以 假定 调用 findRoot(4.96，2，8.61) 会 返回 一 个 平方 













































































值 为 3.99~4.01 的 数值 。 但 返回 值 可 以 是 正 数 ， 也 可 以 是 负数 。 然 而 ， 即 使 4.0 是 一 个 完全 平方 数 ， 
返回 值 也 不 一 定 是 2.0 或 -2.0。 
4.3 ”递归 








你 可 能 听 说 过 递归 ,也 完全 有 可 能 认为 这 是 一 项 高 深 的 编程 技术 。 它 其 实 是 计算 机 科学 家 广 
为 散布 的 一 种 具有 迷惑 性 的 都 市 传奇 , 目的 是 使 人 们 认为 我 们 比 实际 更 聪明 。 递归 是 一 种 非常 重 
要 的 思想 ,但 绝 非 高 深 莫 测 ， 而 且 它 也 不 只 是 一 项 编程 技术 。 

作为 一 种 描述 性 方法 , 递归 的 应 用 非常 广泛 , 甚至 那些 连 做 梦 都 没有 编 过 程序 的 人 也 使 用 过 
递归 。 我 们 可 以 看 一 下 美国 是 如 何 定义 “本 国 出 生 ” 的 公民 的 ， 大 致 如 下 : 
口 任何 在 美国 境内 出 生 的 儿童 ; 
口 在 美国 境外 出 生 的 婚 生 儿童 ， 父 母 是 美国 公民 ， 并 且 双 素 之 一 在 孩子 出 生前 在 美国 居 
住 过 ; 
口 在 美国 境外 出 生 的 婚 生 儿 童 ， 双 亲 之 一 是 美国 公民 ,他 (她 ) 在 孩子 出 生前 至 少 在 美国 

居住 5 年 ， 且 其 中 至 少 2 年 是 在 其 14 岁 生日 之 后 。 

第 一 部 分 非常 简单 ; 如 果 你 出 生 在 美国 ， 那 么 你 就 是 本 国 出 生 公 民 ( 如 巴 拉 克 … 奥巴马 )。 

如 果 你 不 是 在 美国 出 生 的 ， 那 么 先 确 定 你 的 父母 是 否 是 美国 公民 ( 本 国 出 生 或 人 籍 )。 为 了 确定 
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父母 是 否 是 美国 公民 ， 必 须 看 看 祖父 母 的 情况 ， 以 此 类 推 。 
一 般 情况 下 , 递归 定义 包括 两 部 分 。 其 中 至 少 有 一 种 基本 情形 可 以 直接 得 出 某 种 特定 情形 的 
结果 ( 如 上 面 例子 中 的 第 一 种 情况 )， 还 至 少 有 一 种 递归 情形 《或 称 归纳 情形 ) 定义 了 该 问题 在 
其 他 情形 下 的 结果 ， 其 他 情形 通常 是 同样 问题 的 简化 版 本 。 
世界 上 最 简单 的 递归 定义 可 能 是 自然 数 的 阶乘 函数 〈 在 数学 中 一 般 使 用 ! 表 示 )“。 经 典 的 归 


纳 定 义 是 : 



































1!=1 
(n+l1)!=(n+1)*n! 


第 一 个 等 式 定义 了 基本 情形 ,第 二 个 等 式 在 前 一 个 数 的 阶乘 的 基础 上 定义 了 所 有 自然 数 的 阶 

















乘 一 一 除 基 本 情形 外 。 
图 4-5 给 出 阶乘 的 迭代 实现 (factI ) 和 递归 实现 ( factR )。 
def factI(n): def factR(n): 

"" "假设 n 是 正 整数 "" "假设 n 是 正 整数 
返回 n1""" 返回 n1""" 

result = 1 if n == 1: 

while n > 1: return n 
result = result * n else: 
n -= 1 return n*factR(n - 1) 

return result 











图 4-5 ”阶乘 的 迭代 实现 和 递归 实现 


这 个 函数 相当 简单 , 所 以 每 种 实现 都 很 好 理解 。 但 第 二 种 实现 方式 是 对 阶乘 初始 递归 定义 的 
一 种 更 明显 的 转译 。 

通过 在 factR 函 数 体内 调用 factR 实 现 factR， 这 看 上 去 像 是 在 作 浆 。 这 种 实现 是 有 效 的 ， 其 
工作 原理 与 沈 代 实现 其 实 一 样 。 我 们 知道 factI 中 的 迭代 终 会 结束 ,因为 x 从 一 个 正 值 开始 , 每 次 
循环 都 会 减 1。 这 意味 着 ，n 的 值 不 能 永远 大 于 1。 同 样 地 ， 如 果 调 用 factR 时 传人 人 1， 那么 它 不 用 
进行 递归 调用 就 可 以 返回 一 个 值 。 当 它 进行 递归 调用 时 ,使 用 的 值 总 是 比 调用 它 所 用 的 值 小 1。 
最 终 ， 递 归 会 在 调用 factR(1) 时 结束 。 





























4.3.1 斐 波 那 契 数 列 


斐 波 那 契 数列 是 另 一 个 经 常 使 用 递归 方式 定义 的 常用 数学 函数 。“ 他 们 像 兔子 一 样 繁 殖 ” 经 
常用 来 形容 人 口 增长 过 快 。1202 年 ， 意 大 利 数 学 家 比萨 的 列 奥 纳 多 ( 也 称 为 斐 波 那 契 ) 得 出 了 一 























@ “自然 数 ” 的 确切 定义 是 有 争议 的 。 有 人 将 其 定义 为 正 整 数 ， 有 人 的 定义 是 非 负 整数 。 因 此 ,图 4-5 中 的 文档 字符 
串 明确 给 出 了 n 的 可 能 取 值 。 
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个 公式 ， 用 来 计算 兔子 的 繁殖 情况 。 尽 管 在 我 们 看 来 ， 他 的 假设 有 些 不 太 现 实 。” 

假设 一 对 新 生 的 兔子 被 放 到 兔 栏 中 (更 坏 的 情况 是 放 到 野外 )， 一 只 是 公 免 ， 一 只 是 母 免 。 
再 假设 兔子 在 一 个 月 大 时 就 可 以 交配 ( 令 人 惊奇 的 是 ， 有 些 品 种 确实 可 以 )， 并 有 一 个 月 的 妊娠 
期 ( 令 人 惊奇 的 是 ， 有 些 品 种 确实 如 此 )。 最 后 ,假设 这 些 神话 般 的 兔子 永远 不 死 ， 并 且 母 免 从 
第 二 个 月 之 后 每 月 都 能 产 下 一 对 小 兔 (一 公 一 母 )。 那 么 6 个 月 后 ,会 有 多 少 只 母 兔 ? 
第 一 个 月 的 最 后 一 天 ( 称 之 为 第 0 月 ),， 只 有 1 只 母 兔 (准备 在 下 个 月 的 第 一 天 怀孕 ),。 第 二 个 
月 的 最 后 一 天 ， 还 是 只 有 1 只 母 兔 ( 因为 不 到 下 个 月 的 第 一 天 ， 它 不 会 分 娩 )。 下 个 月 的 第 一 天 ， 




























































































会 有 2 只 母 兔 (一 只 怀孕 ， 一 只 没 怀孕 )。 以 此 类 推 ， 可 以 在 图 4-6 的 表格 中 看 到 这 个 过 程 。 
月 份 母 免 数量 
0 1 
1 1 
2 2 
3 3 
4 5 
5 8 
6 13 














图 4-6” 母 免 数 量 的 增长 





请 注意 ， 对 于 n > 1 的 月 份 ，females(n) = females(n - 1) + females(n -2)，females(n) 表 示 第 n 个 
月 的 母 锡 数量 。 这 绝 非 偶然 。 每 只 在 第 z- 1 月 活着 的 母 兔 在 第 "月 仍然 活着 ， 而 且 ， 每 只 在 第 2- 
2 月 活着 的 母 兔 会 在 第 ?月 产 下 一 只 新 的 母 免 。 新 的 母 免 加 上 在 第 z - 1 月 活着 的 母 免 ， 就 是 第 7 月 



































母 免 的 数量 。 
母 免 数量 的 增长 可 以 很 自然 地 使 用 以 下 递 推 公式 描述 2 
females(6) = 1 
females(1) = 1 


females(n + 2) = females(n+1) + females(n) 
这 个 定义 与 阶乘 的 递归 定义 有 些 不 同 。 
口 它 有 两 种 基本 情形 ， 而 不 是 一 种 。 一 般 来 说 ， 只 要 需要 ， 我 们 可 以 有 任意 多 种 基本 情形 。 
口 在 递归 情形 中 ， 有 两 个 递归 调用 ， 而 不 是 一 个 。 同 样 ， 如 果 需 要 ， 可 以 有 任意 多 个 调用 。 
图 4-7 包 含 了 斐 波 那 契 递 推 的 直接 实现 ”， 以 及 一 个 用 来 测试 数列 的 函数 。 





























@ 我 们 称 这 个 数列 为 “ 斐 波 那 契 数 列 ”， 其 实 是 以 “欧洲 中 心 ” 论 看 待 历史 的 一 个 很 好 的 例子 。 斐 波 那 契 对 欧洲 数 

学 界 的 突出 贡献 体现 在 其 著作 《算盘 全 书 》 中 ,他 在 这 本 书 中 向 欧洲 数学 家 介绍 了 很 多 早已 在 印度 和 阿拉 伯 学 者 
中 广为人知 的 概念 。 这 些 概 念 包 括 阿拉 伯 数 字 和 十 进 制 。 我 们 今天 所 说 的 “ 斐 波 那 契 数 列 " 来 自焚 语 数 学 家 Pingala 
的 工作 。 
这 个 版 本 的 斐 波 那 契 数列 对 应 于 斐 波 那 克 《 算 盘 全 书 》 中 使 用 的 定义 。 该 数列 的 其 他 定义 开始 于 0， 不 是 1。 
虽然 这 种 实现 并 没有 错 ， 但 它 非常 低 效 。 使 用 简单 迭代 实现 会 更 好 。 
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def fib(n): 
""" 假 定 n 是 正 整 数 
返回 第 n 个 非 波 那 契 数 """ 
ifn==6orn== 1: 
return 1 
else: 
return fib(n-1) + fib(n-2) 


def testFib(n): 
for i in range(n+1): 
print('fib of', i, '=', fib(i)) 











图 4-7” 斐 波 那 契 数列 的 递归 实现 


解决 这 个 问题 时 , 编写 代码 是 最 容易 的 一 个 环节 。 一 旦 将 这 个 关于 兔子 的 模糊 问题 明确 为 一 
组 递归 公式 , 代码 几乎 就 自动 完成 了 。 找 到 某 种 抽象 方式 表示 问题 的 解 ， 常 常 是 编程 过 程 中 最 困 
难 的 部 分 。 本 书后 续 内 容 会 深入 讨论 这 个 问题 。 

或 许 你 已 经 猪 到 了 ， 这 个 模型 并 不 适用 于 描述 野生 兔子 数量 的 增长 。1859 年 ， 澳 大 利 亚 农场 主 
托马斯 .奥斯汀 从 英格兰 进口 了 24 只 兔子 作为 狩猎 目标 。10 年 后 ,澳大利亚 每 年 大 约 有 2 000 000 
只 兔子 被 射 杀 或 被 捕获 ， 但 对 整体 数量 还 是 没有 明显 的 影响 。 免 子 太 多 了 ， 远 远 超 过 第 120 个 斐 
波 那 契 数 。” 

尽管 斐 波 那 契 数 列 确实 不 是 一 个 能 够 精确 预测 兔子 数量 增长 的 模型 , 但 它 仍然 具有 很 多 有 趣 
的 数学 特性 。 斐 波 那 契 数 在 自然 界 中 也 很 常见 。 


实际 练习 : 如 果 使 用 图 4-7 中 的 函数 fib 计 算 fib(5)， 那 么 需要 计算 多 少 次 fib(2) 的 值 ? 




















































































































4.3.2 回 文 


递归 也 经 常用 于 很 多 与 数值 无 关 的 问题 中 。 图 4-8 包 含 了 一 个 函数 isPalindrome ， 可 以 检查 
一 个 字符 串 在 顺 读 和 倒 读 时 是 否 一 样 。 

函数 isPalindrome 包 含 了 两 个 内 部 辅助 函数 。 主 函数 的 客户 不 关心 辅助 函数 ， 他 们 只 关心 
isPalindrome 是 否 符合 规范 。 但 你 不 能 不 关心 ， 因 为 通过 人 研究 这 种 实现 方式 可 以 学 到 一 些 东 西 。 
甫 助 函 数 tochars 将 所 有 字母 转换 为 小 写 ， 并 且 移 除了 所 有 非 字 母 字 符 。 它 首先 使 用 一 种 内 
置 字 符 串 方 法 生成 一 个 与 s 完 全 一 样 的 字符 串 ， 唯 一 的 区 别 是 所 有 大 写字 母 都 转换 为 小 写 。 我 们 
讲 到 “类 ”的 时 候 会 介绍 更 多 关于 方法 调用 的 知识 , 眼下 可 以 将 它 看 作 一 种 特殊 形式 的 函数 调用 。 
调用 时 ,我 们 不 将 第 一 个 (本 例 中 是 唯一 一 个 ) 参数 放 在 函数 名 后 面 的 小 括号 中 ， 而 使 用 点 标记 
法 将 这 个 参数 放 在 函数 名 之 前 。 










































































@ 据 估计 ， 那 24 只 可 爱 的 兔子 的 后 代 子 孙 现 在 每 年 大 约 造成 6 亿美 元 的 损失 ， 并 导致 很 多 本 地 植物 濒临 灭绝 。 
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def isPalindrome(s) : 
"" "假设 s 是 字符 囊 
如 果 s 是 回 文字 符 事 则 返回 True， 否 则 返回 False。 
忽略 标点 符号 、 空 格 和 大 小 写 。""" 


def toChars(s): 
s = s.lower() 
letters = "" 
for c in s: 
if c in 'abcdefghijklmnopqrstuvwxyz": 
letters = letters + Cc 
return letters 


def isPal(s) : 
if len(s) <= 1: 
return True 
else: 
return s[6] == s[-1] and isPal(s[1:-1]) 


return ispal(toChars(s)) 














图 4-8 ” 回 文 检测 


辅助 函数 isPal 使 用 递归 完成 实际 的 工作 。 两 种 基本 情形 是 长 度 为 0 或 1 的 字符 串 ， 这 说 明 ， 
只 有 字符 串 长 度 为 2 或 更 大 时 ,才能 出 现 递 归 情 形 ,else 字 句 中 的 合 取 项 "是 从 左 到 右 进行 求 值 的 。 
代码 先 检 查 字符 串 的 第 一 个 字母 和 最 后 一 个 字母 是 否 相 同 , 如 果 相 同 , 则 继续 检查 去 掉 这 两 个 字 
母 之 后 的 字符 串 是 否 是 回 文 字符 串 。 除 非 第 一 个 合 取 项 取 值 为 True ,否则 第 二 个 合 取 项 不 被 求 值 。 
在 本 例子 中 , 这 一 点 在 语义 上 是 无 关 的 。 但 在 本 书后 面 ,我 们 会 给 出 一 个 例子 ， 其 中 这 种 布尔 表 
达 式 的 短路 求 值 在 语义 上 是 相关 的 。 

这 种 对 isPalindrome 的 实现 是 分 治 策略 的 典型 例子 。( 这 种 原则 与 分 治 算法 密切 相关 , 但 又 
有 点 不 一 样 ， 我 们 会 在 第 10 章 进行 讨论 。) 这 种 解决 问题 的 原则 就 是 ， 将 一 个 困难 问题 分 解 成 一 
组 子 问题 逐个 解决 。 分 解 出 来 的 子 问题 具有 以 下 特性 : 

口 子 问题 比 初始 问题 更 容易 解决 ; 
口 子 问 题 的 解决 方案 可 以 组 合 起 来 解决 初始 问题 。 

“分 治 策略 ”是 一 种 非常 古老 的 思想 。 琐 力 斯 ' 凯 撤 实行 了 罗马 人 所 称 的 “分 而 治之 ”( divide 
et impera )， 英 国人 也 通过 这 种 方式 出 色 地 控制 了 印度 次 大 陆 。 本 杰 明 “' 富兰克林 非常 熟悉 英国 
人 的 这 套 玩弄 权 术 的 把 戏 ， 这 使 得 他 在 签署 美国 《独立 宣言 》 时 说 出 了 那 句 著名 的 话 :“ 我 们 必 
须 团 结 一 致 ， 否 则 就 必定 会 被 分 别 绞 死 。 

本 例 中 , 我 们 将 初始 问题 分 解 为 一 个 更 简单 的 情形 ( 检查 一 个 更 短 的 字符 串 是 否 是 回 文字 符 
串 ) 和 一 个 我 们 可 以 解决 的 简单 情形 ( 比较 单个 字符 ), 然后 使 用 and 将 这 两 个 问题 的 解 组 合 起 来 。 
图 4-9 中 的 代码 可 以 告诉 我 们 如 何 实现 这 种 解决 方式 。 






























































































































































@ 当 两 个 布尔 值 表达 式 通 过 and 连 接 时 ,每 个 表达 式 被 称 为 合 取 项 。 如 果 它 们 是 通过 or 连接 的 , 那么 被 称 为 分 取 项 。 
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def isPalindrome(s) : 


EE 


假设 s 是 字符 囊 
如 果 5s 是 回 文字 符 串 则 返回 True， 否 则 返回 False。 
忽略 标点 符号 、 空 格 和 大 小 写 。""" 


def toChars(s): 
s = s.lower() 
letters = "" 
for c in s: 
if c in 'abcdefghijklmnopqrstuvwxyz": 
letters = letters + Cc 
return letters 


def ispal(s): 

print(' isPal called with', s) 

if len(s) <= 1: 
print(' About to return True from base case') 
return True 

else: 
answer = s[6] == s[-1] and isPal(s[1:-1]) 
print(' About to return', answer, 'for', s) 
return answer 


return isPal(toChars(s)) 


def testIsPalindrome() : 
print('Try dogGod ' ) 
print(ispalindrome('dogGod')) 
print('Try doGood') 
print(ispalindrome('doGood')) 











图 4-9 ”实现 回 文 检测 的 代码 


运行 testIsPalindrome 时 ， 它 会 输出 ， 


Try dogGod 


isPal 
isPal 
isPal 
isPal 
About 
About 
About 
About 
True 


called with doggod 

called with oggo 

called with gg 

called with 

to return True from base case 
to return True for gg 

to return True for oggo 

to return True for doggod 


Try doGood 


isPal 
isPal 
isPal 
About 
About 
About 
False 


called with dogood 

called with ogoo 

called with go 

to return False for go 

to return False for ogoo 
to return False for dogood 





4.4 全 局 变量 





如 果 试 着 使 用 一 个 非常 大 的 数 调用 函数 fib ,那么 你 可 能 会 发 现 函 数 需要 运行 很 长 一 段 时 间 。 
假设 我 们 想 知道 究竟 进行 了 多 少 次 递归 调用 ， 可 以 对 代码 进行 仔细 分 析 ， 然 后 找 出 答案 ， 第 9 章 
会 讨论 如 何 操作 。 另 外 一 种 方法 是 ， 添 加 一 些 代 码 计算 调用 次 数 。 这 时 就 要 使 用 全 局 变量 。 











我 们 之 前 编写 的 所 有 函数 中 ， 











只 能 通过 参数 和 返回 值 和 外 部 环境 进行 交互 。 在 多 数 情况 下 应 


该 这 么 做 ， 因 为 这 样 可 以 使 程序 更 容易 阅读 、 测 试 和 调试 。 但 偶尔 会 有 一 些 时 候 ， 使 用 全 局 变量 


更 加 方便 。 看 图 4-10 中 的 代码 。 








else : 


for i in 





def fib(x): 
"" "假设 X 是 正 整数 
返回 第 X 个 裴 波 那 契 数 """ 


global numFibCalls 

numFibCalls += 1 

if x == 0 Or x == 1: 
return 1 


return fib(x-1) + fib(x-2) 
def testFib(n): 

global numFibCalls 

numFibCalls = 6 


print('fib of', i, '=', fib(i)) 
print('fib called', numFibCalls, 'times.') 


range(n+1): 























图 4-10 ”使 用 全 局 变量 








每 个 函数 中 ，global numFibCalls 这 行 代码 都 会 告诉 Python， 名 称 numFibcalls 是 定义 在 代 
人 码 所 在 函数 外 层 的 模块 (参见 4.5 节 ) 作用 域 中 的 ， 而 不 是 在 代码 所 在 函数 的 作用 域 中 的 。 如 果 


我 们 没有 包括 global numFibCal 
testFib 的 局 部 变量 。 因 为 在 fib 逢 
函数 fib 和 testFib 都 可 以 不 受 限 人 




















1s 这 行 代码 ， 那 么 名 称 numFibcalls 就 会 被 认为 是 函数 fib 和 
HtestFib 这 两 个 函数 中 , numFibCcalls 出 现在 赋值 语句 的 左 侧 。 
基地 访问 变量 numFibcal1s 引 用 的 对 象 ， 函 数 testFib 每 次 调用 





fib 时 ， 都 将 numFibcal1s 绑 定 到 8e。 每 次 进入 函数 fib 时 ，fib 都 会 增加 numFibCcalls 的 值 。 
调用 fib(6)， 会 生成 如 下 输出 : 


fib of 6 = 
fib called 
fib of 1 = 
fib called 
fib of 2 = 
fib called 
fib of 3 = 
fib called 
fib of 4 = 


times. 


times. 


times. 


times. 


mmwwhP 上 
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fib called 9 times . 
fib of 5 = 8 
fib called 15 times . 
fib of 6 = 13 
fib called 25 times . 

















介绍 全 局 变量 这 个 主题 时 ,我们 是 心怀 志 亚 的 。 从 20 世 纪 70 年 代 开 始 , 正统 计算 机 科学 家 都 








强烈 反对 使 用 全 局 变量 , 因为 随意 使 用 全 局 变量 会 引发 很 多 问题 。 使 程序 清晰 易 读 的 关键 就 是 局 











部 性 。 人 们 一 次 只 能 阅读 一 段 程序 ,理解 这 段 程 序 所 需 的 上 下 文 越 少 ， 














效果 就 越 好 。 因 为 全 局 变 


量 可 以 在 程序 中 的 很 多 地 方 被 修改 或 读 取 ， 所 以 草率 地 使 用 全 局 变量 会 破坏 局 部 性 。 尽 管 如 此 ， 





全 局 变量 有 时 真 的 很 有 用 。 


4.5 模块 














迄今 为 止 , 我 们 进行 各 种 操作 的 前 提 是 , 假设 整个 程序 保存 在 一 个 文件 中 。 当 程序 比较 小 时 ， 
这 样 做 非常 合理 。 但 程序 变 得 越 来 越 大 时 , 将 程序 的 不 同 部 分 保存 在 不 同文 件 中 通常 会 更 加 方便 。 





例如 , 假设 多 人 合作 编写 同一 个 程序 , 那么 他 1 























模块 允许 我 们 方便 地 使 用 多 个 文件 中 的 代码 来 构建 程序 。 
模块 就 是 一 个 包含 Python 定义 和 语句 的 .py 文件 。 例 如 , 我 们 可 以 创建 一 个 包含 图 4-11 代 码 的 


circle.py 文 件 。 














pi = 3.14159 


def area(radius ) : 
return pi*(radius**2) 


def circumference(radius): 
return 2*pi*radius 


def sphereSsurface(radius) : 
return 4.0xarea(radius) 


de 


路 


sphereVolume(radius): 
return (4.6/3.0)*pi*(radius**3) 








图 4-11 一些 关于 圆 与 球 的 代码 





程序 可 以 通过 import 语 句 访 问 一 个 模块 。 如 下 面 的 代码 : 














import circle 
pi=3 

print(pi) 
print(circle.pi) 


print(circle.area(3)) 


print(circle.circumference(3)) 
print(circle.sphereSurface(3)) 


门 试 图 更 新 同一 个 文件 时 , 那 简直 就 是 焉 梦 。 Python 
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会 输出 : 


Ww 


3.14159 

28.27431 
18.849539999999998 
113 .09724 


模块 通常 保存 在 单独 的 文件 中 。 每 个 模块 都 有 自己 的 私有 符号 表 ， 所 以 ， 在 circle.py 中 ， 我 
们 可 以 像 往常 一 样 访问 对 象 ( 如 pi 和 area )。 运 行 import M 语 句 后 ， 会 将 模块 M 绑 定 到 import 语 
名 所 在 的 作用 域 中 。 因 此 , 在 导入 上 下 文中 , 我 们 使 用 点 标记 法 表示 引用 的 名 称 是 定义 在 导入 模 
块 中 的 。" 例 如 , 在 circle.py 外 部 , pi 和 circle.pi 表 示 引 用 的 是 不 同 的 对 象 ( 在 本 例 中 的 确 如 此 )。 

乍 看 上 去 , 使 用 点 标记 法 有 些 麻烦 。 但 换个 角度 想 想 ， 当 我 们 导入 一 个 模块 时 , 根本 不 知道 
这 个 模块 在 实现 时 使 用 了 哪些 局 部 名 称 。 使 用 点 标记 法 可 以 充分 限定 变量 名 , 避免 名 称 冲突 造成 
程序 损害 的 可 能 性 。 例 如 ， 在 circle 模 块 外 部 执行 赋值 语句 pi = 3 时 ， 就 不 会 改变 circle 模 块 
内 部 的 pi 的 值 。 

还 有 一 种 import 语 句 的 变种 ,允许 导入 程序 不 需 使 用 模块 名 称 即 可 访问 定义 在 被 导入 模块 中 
的 名 称 。 执 行 语句 from M import * 会 将 M 中 定义 的 所 有 对 象 绑 定 到 当前 作用 域 ， 而 不 是 M 本 身 。 
例如 ， 以 下 代码 : 

from circle import * 


print(pi) 
print(circle.pi) 


会 先 输出 3.14159， 然 后 产生 一 条 错误 消息 : 

NameError: name 'circle' is not defined 

有 些 Python 程 序 员 不 赞成 使 用 这 种 形式 的 ijmport 语 句 , 因为 他 们 相信 这 种 方式 增加 了 代码 的 
阅读 难度 。 

正如 我 们 所 见 , 模块 可 以 包含 可 执行 的 语句 ,也 可 以 包含 函数 定义 。 通常， 这 些 语句 用 来 对 
模块 进行 初始 化 。 基 于 这 个 原因 ,模块 中 的 语句 仅 在 模块 第 一 次 被 导入 程序 时 才 执 行 。 而 且 , 一 
个 模块 在 每 个 解释 器 会 话 中 只 能 被 导入 一 次 。 如 果 你 启动 了 shell， 导 入 一 个 模块 ,然后 修改 这 个 
模块 中 的 内 容 , 那么 解释 带 仍 然 会 继续 使 用 这 个 模块 的 初始 版 本 。 这 在 调试 程序 时 会 引起 令 人 困 
惑 的 状况 。 你 疑惑 不 解 时 ， 可 以 启动 一 个 新 的 shell。 

现在 很 多 有 用 的 模块 已 经 成 为 标准 Python 程序 库 的 一 部 分 。 例 如 ， 现 在 几乎 不 需要 你 自己 实 
现 一 般 的 数学 函数 和 字符 串 函 数 。 关 于 Python 程序 库 的 详细 说 明 请 参考 : http://docs.python.org/2/ 
library/。 


4.6 文件 
所 有 计算 机 系统 都 使 用 文件 保存 计算 过 程 的 结果 ， 并 供 下 次 计算 使 用 。Python 为 创建 和 使 用 



















































































Q@ 从 表面 上 看 ， 这 好 像 和 方法 调用 中 的 点 标记 法 没有 联系 。 然 而 ， 我 们 在 第 8 章 中 将 会 看 到 ， 它 们 有 很 深 的 联系 。 
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文件 提供 了 非常 多 的 功能 。 下 面 介绍 几 种 最 基本 的 方式 。 

每 种 操作 系统 ( 如 Windows 和 MAC OS ) 都 通过 自己 的 文件 系统 创建 和 使 用 文件 。Python 通 
过 文件 句柄 处 理 文件 ， 实 现 了 操作 系统 的 独立 性 。 以 下 代码 : 

nameHandle = open('kids', 'w') 
指示 操作 系统 创建 一 个 名 为 kids 的 文件 ， 并 返回 其 文件 句柄 。open 函 数 的 参数 'w' 表示 文件 是 以 
可 写 方式 打开 的 。 下 面 的 代码 打开 一 个 文件 ， 使 用 write 方法 向 文件 写 人 两 行 数据 ， 然 后 关闭 文 
件 。 程 序 使 用 完 文 件 后 ， 请 一 定 记得 关闭 文件 ， 和 否则 写 入 的 内 容 可 能 部 分 或 全 部 丢失 。 

nameHandle = open('kids', 'w') 

for i in range(2): 

name = input('Enter name: ') 


nameHandle.write(name + '\n') 
nameHandle.close() 


在 Python 字符 串 中 , 转 义 字符 \ 用 来 表示 它 后 面 的 字符 具有 特殊 意义 。 在 本 例 中 , 字符 串 '\n' 
表示 一 个 换行 符 。 

我 们 可 以 以 只 读 方式 打开 文件 (使 用 参数 'r' )， 然 后 输出 其 中 的 内 容 。 因 为 Python 将 文件 看 
成 是 行 的 序列 ， 所 以 可 以 使 用 for 语 名 遍历 文件 内 容 : 

nameHandle = open('kids', 'r') 

for line in nameHandle: 


print(line) 
nameHandle.close() 


如 果 输 入 名 称 David 和 Andrea， 就 会 输出 : 


David 
























































Andrea 
David 和 Andrea 之 间 有 一 个 空 行 ， 因 为 每 次 输出 到 文件 行 尾 的 '\n' 时， 都 会 开始 一 个 新 行 。 可 以 
使 用 print line[:-1] 避 免得 出 空 行 。 下 面 的 代码 : 


nameHandle = open('kids', 'w') 
nameHandle.write('Michael\n') 
nameHandle.write('Mark\n') 
nameHandle.close() 
nameHandle = open('kids', 'r') 
for line in nameHandle: 
print(line[:-1]) 
nameHandle.close() 


会 输出 : 


Michael 
Mark 


请 注意 ， 我 们 覆盖 了 文件 kids 原 来 的 内 容 。 如 果 不 想 这 样 做 ， 可 以 使 用 参数 'a' 用 追加 (不 
使 用 可 写 方式 ) 方式 打开 文件 。 例 如 ， 如 果 运 行 下 面 的 代码 : 











4.6 文件 49 





nameHandle = open('kids', 'a') 
nameHandle .write('David\n') 
nameHandle .write('Andrea\n') 
nameHandle.close() 
nameHandle = open('kids', 'r') 
for line in nameHandle: 
print(line[:-1]) 
nameHandle.close() 


会 输出 : 


Michael 
Mark 
David 
Andrea 


图 4-12 总 结 了 一 些 常用 的 文件 操作 。 




































































open(fn,，'w'): fn 是 一 个 表示 文件 名 的 字符 串 。 创 建 一 个 文件 用 来 写 入 数据， 返回 文件 
句柄 。 

open(fn,，'r'): fn 是 一 个 表示 文件 名 的 字符 串 。 打 开 一 个 已 有 文件 读 取 数据 ， 返 回 文件 
句柄 。 

open(fn，'a' ): fn 是 一 个 表示 文件 名 的 字符 串 。 打 开 一 个 已 有 文件 用 来 追加 数据 ,返回 文件 
句柄 。 




















fh.read(): 返回 一 个 字符 串 ， 其 中 包含 与 文件 句柄 fh 相 关 的 文件 中 的 内 容 。 

fh.readline(): 返回 与 文件 句柄 fh 相 关 的 文件 中 的 下 一 行 。 

fh.readlines(): 返回 一 个 列表 , 列表 中 的 每 个 元 素 都 是 与 文件 句柄 fh 相 关 的 文件 中 的 一 行 。 

fh.write(s): 将 字符 串 s 写 入 与 文件 句柄 fh 相关 的 文件 末尾 。 

fh.writeLines(S): S 是 个 字符 串 序列 。 将 s 中 的 每 个 元 素 作为 一 个 单独 的 行 写 入 与 文件 句柄 
fh 相关 的 文件 。 

fh.close(): 关闭 与 文件 句柄 fh 相关 的 文件 。 







































































图 4-12 ”文件 操作 常用 函数 


结构 化 类 型 、 可 变性 己 
高 阶级 数 








我 们 目前 介绍 过 的 程序 使 用 了 3 种 类 型 的 对 象 : int 、float 和 str。 数 值 类 型 int 和 float 是 
标量 类 型 ， 也 就 是 说 ， 这 种 类 型 的 对 象 没 有 可 以 访问 的 内 部 结构 。 与 之 相 比 ， 我 们 可 以 认为 str 
是 一 种 结构 化 的 、 非 标量 的 类 型 。 我 们 可 以 使 用 索引 从 字符 串 提取 单个 字符 ,也 可 以 通过 分 片 操 
作 获 取 子 字符 串 。 

本 章 将 介绍 另外 4 种 结构 化 类 型 。 其 中 ，tuple 相 对 简单 ， 是 str 的 扩展 。 其 他 3 种 1ist、 
range" 和 dict 一 一 则 有 趣 得 多 。 我 们 还 会 回 到 “函数 ”这 个 主题 ,使 用 几 个 示例 演示 一 些 使 用 
方法 ， 看 看 如 何 能 像 其 他 对 象 类 型 一 样 对 待 函 数 。 


















































5.1 元 组 


与 字符 串 一 样 , 元 组 是 一 些 元 素 的 不 可 变 有 序 序列 。 与 字符 串 的 区 别 是 , 元 组 中 的 元 素 不 一 
定 是 字符 ， 其 中 的 单个 元 素 可 以 是 任意 类 型 ， 且 它们 彼此 之 间 的 类 型 也 可 以 不 同 。 

tuple 类 型 的 字面 量 形式 是 位 于 小 括号 之 中 的 由 逗号 隔 开 的 一 组 元 素 。 例 如 ， 我 们 可 以 输入 
如 下 代码 : 

t1 = () 

t2 = (1, 'two', 3) 


print(t1) 
print(t2) 


不 出 所 料 ，print 语 句 会 输出 : 


() 
(1， 'two', 3) 



























































看 着 这 个 例子 , 你 可 能 会 很 自然 地 认为 ,只 包含 一 个 元 素 1 的 元 组 应 该 写成 (1)。 但 正如 理 查 
德 . 尼克松 所 说 :“ 那 将 是 错误 的 。 因为 小 括号 是 用 来 分 组 表达 式 的 ， 所 以 (1) 只 不 过 是 整数 1 
的 一 种 更 加 宛 长 的 写法 。 要 想 表示 包含 1 的 单元 素 元 组 ， 我 们 应 该 写成 (1, ) 。 几 乎 所 有 Python 用 



































Q range 类 型 在 Python 2 中 不 存在 。 








户 都 不 小 心 漏 掉 过 那个 烦人 的 有 逗 号 。 
可 以 在 元 组 上 使 用 重复 操作 。 如 ， 表 达 式 3*('a'，2) 的 值 就 是 ('a'，2，'a'，2，'a'，2)。 
与 字符 串 一 样 ， 元 组 可 以 进行 连接 、 索 引 和 切片 等 操作 。 看 下 面 的 代码 : 
t1 = (1, 'two', 3) 
t2 = (t1, 3.25) 
print(t2) 
print((t1 + t2)) 


print((t1 + t2)[3]) 
print((t1 + t2)[2:5]) 


第 二 个 赋值 语句 将 名 称 t2 绑 定 到 一 个 元 组 , 这 个 元 组 中 有 一 个 绑 定 了 和 名称 t1 的 元 组 和 一 个 浮 
点 数 3.25。 这 是 可 行 的， 因为 元 组 也 是 一 个 对 象 ， 和 Python 中 的 其 他 对 象 一 样 ， 所 以 元 组 可 以 包 
含 元 组 。 因 此 ， 第 一 个 print 语 句 会 输出 : 









































((1, 'two', 3), 3.25) 
第 二 个 print 语 句 输出 t1 和 t2 绑 定 后 的 值 ， 是 一 个 五 元 素 元 组 。 输 出 结果 为 : 

(1， 'two', 3, (1, 'two', 3), 3.25) 

下 一 条 语句 选取 并 输出 连接 后 元 组 中 的 第 四 个 元 素 (Python 中 的 索引 从 e 开 始 ), 后 面 的 一 条 
语句 创建 并 输出 这 个 元 组 的 一 个 切片 ， 输 出 如 下 : 

(1， "two'，3) 

(3, (1, 'two', 3), 3.25) 

可 以 使 用 一 个 for 语 句 遍历 元 组 中 的 各 个 元 素 : 

def intersect(t1, t2): 
"" "假设 tL1 和 t2 是 正 整数 

返回 一 个 元 组 ， 包 人 钨 t1 和 t2 的 公约 数 """ 
both t1 and t2""" 

result = () 
for e in t1: 

if e in t2: 


result += (e,) 
Peturn result 


序列 与 多 重 赋值 


如 果 你 知道 一 个 序列 (元 组 字符 串 ) 的 长 度 ， 那 么 可 以 使 用 Python 中 的 多 重 赋值 语句 方便 地 
提取 单个 元 素 。 例 如 ， 执 行 语句 x，y = (3，4) 后 ，x 会 被 绑 定 到 3，y 会 被 绑 定 到 4。 同 样 地 ,请 
句 a，b，c = “xyz ' 会 将 a 绑 定 到 x、b 绑 定 到 y、c 绑 定 到 z。 

与 返回 固定 长 度 序列 的 函数 结合 使 用 时 ， 这 种 机 制 会 特别 方便 。 举 个 例子 ， 看 下 面 的 函 
数 定义 : 

def findExtremeDivisors(n1, n2): 

"" "假设 n1 和 n2 是 正 整 数 


返回 一 个 元 组 ， 包 含 n1 和 n2 的 最 小 公约 数 和 最 大 公约 数 ， 最 小 公约 数 大 于 1， 
如 果 没 有 公约 数 ， 则 返回 (None，None)。""" 
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returns (None, None)""" 
minVal, maxVal = None, None 
for i in range(2, min(n1, n2) + 1): 
if n1%i == 6 and n2%i == 6: 


if minVal == None: 
minVal = i 
maxVal = i 
return (minVal, maxVal) 
多 重 赋值 语句 : 


minDivisor, maxDivisor = findExtremeDivisors(1606, 2080) 


会 将 minDivisor 绑 定 到 2， 将 maxDivisor 绑 定 到 166。 


5.2 范围 


和 字符 串 与 元 组 一 样 ， 范 围 也 是 不 可 变 的 。range 也 数 会 返回 一 个 range 类 型 的 对 象 。 正 如 3.2 
节 中 的 定义 ，range 函 数 接受 3 个 整数 参数 : start 、stop 和 step,， 并 返回 整数 数列 start、start + 
step 、start + 2 * step、 等 等 。 如 果 step 是 个 正 数 ， 那 么 最 后 一 个 元 素 就 是 小 于 stop 的 最 大 
整数 start + i * step。 如 果 step 是 个 负数 ， 那 么 最 后 一 个 元 素 就 是 大 于 stop 的 最 小 整数 start + 
i * step。 如 果 只 有 2 个 实 参 ,那么 步 长 就 为 1。 如 果 只 有 1 个 实 参 ， 那 么 这 个 参数 就 是 结束 值 ， 
起 始 值 默认 为 0， 步 长 默认 为 1。 

除了 连接 操作 和 重复 操作 ， 其 他 所 有 能 够 在 元 组 上 进行 的 操作 同样 适用 于 范围 。 例 如 ， 
range(16)[2:6][2] 的 值 为 4。 使 用 == 操 作 符 比 较 两 个 range 类 型 的 对 象 时 , 如 果 两 个 范围 表示 同 
样 的 整数 序列 ， 那 么 就 返回 True。 例 如 ，range(86，7，2) == range(8，8，2) 的 值 就 是 True， 
但 range(86，7，2) == range(6，-1，-2) 的 值 则 是 False。 因 为 尽管 这 两 个 范围 包含 同样 的 整 
数 ， 但 顺序 是 不 一 样 的 。 

与 元 组 类 型 的 对 象 不 同 ，range 类 型 的 对 象 占 用 的 空间 与 其 长 度 不 成 正比 。 因 为 范围 是 由 起 
始 值 、 结 束 值 和 步 长 定义 的 ， 它 的 存储 仅 占用 很 小 的 一 部 分 空间 。 

range 最 常用 在 for 循 环 中 ，range 类 型 的 对 象 也 可 以 用 在 所 有 可 以 使 用 整数 序列 的 地 方 。 


5.3 ”列表 与 可 变性 


与 元 组 类 似 , 列表 也 是 值 的 有 序 序列 ,每 个 值 都 可 以 由 索引 进行 标识 。 表 示 1ist 类 型 字面 量 
的 语法 与 元 组 很 相似 ， 区 别 在 于 列表 使 用 的 是 中 括号 ， 而 元 组 使 用 的 是 小 括号 。 空 列表 写作 [ ] ， 
单元 素 列表 不 需要 在 闭 括号 前 面 加 上 那个 〈 特别 容易 忘掉 的 ) 有 逗号。 看 下 面 的 示例 代码 : 





































































































L= ['I did it all', 4, 'love'] 
for i in range(len(L)): 
print(L[i]) 


会 输出 : 


I did it all 
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4 
love 


中 插 号 还 可 以 用 于 表示 1ist 类 型 字面 量 、 列 表 索 引 和 列表 切片 , 这 个 事实 有 时 会 产生 一 些 
视觉 上 的 混淆 。 例 如 ， 表 达 式 [1，2，3，4][1:3][1] 的 值 为 3， 它 使 用 了 方 括号 的 3 种 不 同 用 
法 。 实 际 上 ， 这 几乎 不 是 什么 问题 ， 因 为 多 数 时 候 列表 都 是 以 递增 的 方式 建立 的 ， 很 少 直接 书 
写字 面 量 。 

列表 与 元 组 相 比 有 一 个 特别 重要 的 区 别 : 列表 是 可 变 的 ， 而 元 组 和 字符 串 是 不 可 变 的 。 很 多 
操作 符 可 以 创建 可 变 类 型 的 对 象 , 也 可 以 将 变量 绑 定 到 这 种 类 型 的 对 象 上 。 但 不 可 变 类 型 的 对 象 
是 不 能 被 修改 的 ， 相 比 之 下 ，1ist 类 型 的 对 象 在 创建 完成 后 可 以 被 修改 。 

“使 对 象 发 生变 化 ”与 “将 对 象 赋 给 变量 ”这 二 者 之 间 的 区 别 乍 看 上 去 不 太 明 显 ， 但 如 果 你 
不 断 重 复 “ 在 Python 中 ， 变 量 仅 是 个 名 称 ， 就 是 贴 在 对 象 上 的 标签 ”这 句 话 ， 没 准 儿 就 顿悟 了 。 

执行 以 下 语句 时 : 

Techs = ['MIT', 'Caltech'] 

Ivys = ['Harvard', 'Yale', 'Brown'] 


解释 器 会 创建 两 个 新 列表 ， 然 后 为 其 绑 定 合适 的 变量 ， 如 图 5$-1 所 示 。 






Techs 


['MIT','Caltech'] 


['Harvard','Yale','Brown'] 


图 5-1 ”两 个 列表 


赋值 语句 : 


Univs = [Techs, Ivys] 
Univs1 = [['MIT', 'Caltech'], ['Harvard', 'Yale', 'Brown']] 


也 会 创建 新 的 列表 并 为 其 绑 定 变量 。 这 些 列表 中 的 元 素 也 是 列表 。 以 下 三 条 语句 : 


print('Univs =', Univs) 
print('Univs1 =", Univs1) 
print(Univs == Univs1) 
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会 输出 : 


Univs = [['MIT', 'Caltech'], ['Harvard', 'Yale', 'Brown']] 
Univs1 = [['MIT', 'Caltech'], ['Harvard', 'Yale', 'Brown']] 
True 


看 上 去 好 像 nivs 和 Univs1 被 绑 定 到 同一 个 值 , 但 这 个 表象 具有 欺骗 性 。 如 图 5-2 所 示 , Univs 
和 Univs1 被 绑 定 到 了 完全 不 同 的 值 。 









['MIT','Caltech’ 
["'Harvard','Yale', 'Brown'] 
['MIT','Caltech" 


['Harvard','Yale','Brown'] 










Univs 






图 5-2 ”两 个 列表 看 上 去 有 同样 的 值 ， 但 实际 不 是 


Univs 和 Univs1 被 绑 定 到 不 同 的 对 象 ， 可 以 使 用 Python 内 置 函 数 id 验 证 这 一 点 ，id 会 返回 一 
个 对 象 的 唯一 整数 标识 符 。 可 以 用 这 个 函数 检测 对 和 象 是 否 相 等 。 运 行 下 面 的 代码 : 

print(Univs == Univs1) # 测 试 值 是 否 相等 

print(id(Univs) == id(Univs1)) # 测 试 对 象 是 否 相 等 

print('Id of Univs =', id(Univs)) 

print('Id of Univs1 ="', id(Univs1)) 


会 输出 : 


True 

False 

Id of Univs = 4447865768 
Id of Univs1 = 4456134468 


《运行 这 段 代码 时 ， 别 指望 会 看 到 相同 的 唯一 标识 符 。 在 Python 语义 中 ， 每 个 对 象 的 标识 符 
没有 任何 意义 ，Python 仅 要 求 任意 两 个 对 象 具有 不 同 标识 符 。) 

请 注意 , 图 $-2 中 ,Univs 中 的 元 素 不 是 Techs 和 Ivys 绑 定 的 列表 的 复制 ， 而 是 这 些 列表 本 身 。 
Univs1 中 的 元 素 也 是 列表 ， 与 Univs 中 的 列表 包含 同样 元 素 ， 但 不 同 于 Univs 中 的 那些 列表 。 我 
们 可 以 通过 以 下 代码 确认 这 一 点 : 


print('Ids of Univs[8] and Univs[1]', id(Univs[8]), id(Univs[1])) 
print('Ids of Univs1[6] and Univs1[1]', id(Univs1[8]), id(Univs1[1])) 
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会 输出 : 
Ids of Univs[6] and Univs[1] 4447867688 4456134664 
Ids of Univs1[8] and Univs1[1] 4447865768 4447866728 


为 什么 这 一 点 很 重要 呢 ? 因为 列表 是 可 变 的 。 看 下 面 的 代码 : 

Techs .append( 'RPI') 
append 方 法 具有 副作用 。 它 不 创建 一 个 新 列表 ， 而 是 通过 向 列表 Techs 的 末尾 添加 一 个 新 元 素 一 一 
字符 串 'RPI' 一 一 改变 这 个 已 有 的 列表 。 图 5-3 给 出 了 执行 append 后 的 计算 状态 。 








Univs 






['Harvard','Yale','Brown'] 


['MIT', 'Caltech’, 'RPI'] 









['MIT','Caltech 


['Harvard','Yale','Brown'] 


Univs 






邮 





图 5-3 ”可 变性 演示 


Univs 绑 定 的 对 象 仍然 包含 与 原来 一 样 的 两 个 列表 ， 但 其 中 一 个 列表 的 内 容 已 经 发 生变 化 。 
因此 ，print 语 句 : 


print('Univs ="', Univs) 
print('Univs1 ="', Univs1) 


现在 会 输出 : 


Univs = [['MIT', 'Caltech', 'RPI'], ['Harvard', 'Yale', 'Brown']] 
Univs1 = [['MIT', 'Caltech'], ['Harvard', 'Yale', 'Brown']] 


这 种 情况 称 为 对 象 的 别名 。 两 种 不 同 的 方式 可 以 引用 同一 个 列表 对 象 。 一 种 方式 是 通过 变量 
Techs， 另 一 种 方式 是 通过 Univs 绑 定 的 1ist 对 象 中 的 第 一 个 元 素 。 我 们 可 以 通过 任意 一 种 方式 
改变 这 个 对 象 ， 而 且 改 变 的 结果 对 两 种 方式 都 是 可 见 的 。 这 非常 方便 ,但 也 留 下 了 隐患 。 无 意 形 
成 的 别名 会 导致 程序 错误 ， 而 且 这 种 错误 非常 难以 捕获 。 

和 元 组 一 样 ， 可 以 使 用 for 语 名 遍历 列表 中 的 元 素 。 例 如 ; 


for e in Univs : 
print('Univs contains', e) 
print(” which contains') 
for u in e: 
phint(” *y UO 
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会 输出 : 


Univs contains ['MIT', 'Caltech', 'RPI'] 
which contains 
MIT 
Caltech 
RPI 
Univs contains ['Harvard', 'Yale', 'Brown'] 
which contains 
Harvard 
Yale 
Brown 


我 们 将 一 个 列表 追加 到 另 一 个 列表 中 时 ， 如 Techs.append(Ivys) ， 会 保持 原来 的 结构 。 也 
就 是 说 , 结果 是 一 个 包含 列表 的 列表 。 如 果 我 们 不 想 保持 原来 的 结构 ， 而 想 将 一 个 列表 中 的 元 素 
添加 到 另 一 个 列表 ， 那 么 可 以 使 用 列表 连接 操作 或 extend 方 法 。 如 下 所 示 : 








L1 = [1,2,3] 
L2 = [4,5,6] 
L3 = L1L +[L2 


print('L3 =', L3) 
L1.extend(L2) 
print('L1 =', L1) 
L1.append(L2) 
print('L1 =', L1) 


会 输出 : 
L3 = [1, 2, 3, 4, 5, 6] 
L1 = [1, 2, 3, 4, 5, 6] 
L1 = [1, 2, 3, 4, 5, 6, [4, 5, 6]] 








请 注意 ， 操 作 符 + 确实 没有 副作用 ， 它 会 创建 并 返回 一 个 新 的 列表 。 相 反 ，extend 和 append 
都 会 改变 L1。 
图 5-4 给 出 了 一 些 列表 操作 。 请 注意 ， 除 了 count 和 index 外 ， 这 些 方法 都 会 改变 列表 。 








.append(e): 将 对 象 e 追 加 到 L 的 末尾 。 
.count(e); 返回 e 在 L 中 出 现 的 次 数 。 
.insert(i，e): 将 对 象 e 插 入 L 中 索引 值 为 i 的 位 置 。 
.extend(L1): 将 L1 中 的 项 目 追 加 到 LL 末尾 。 
.remove(e): 从 L 中 删除 第 一 个 出 现 的 e。 
index(e): 返回 e 第 一 次 出 现在 L 中 时 的 索引 值 。 如 果 e 不 在 L 中 , 则 抛 出 一 
(参见 第 7 章 ) 。 
L.pop(i): 删除 并 返回 L 中 索引 值 为 i 的 项 目 。 如 果 L 为 空 ， 则 抛 出 一 个 异常 。 
如 果 i 被 省 略 ， 则 i 的 默认 值 为 -1， 删 除 并 返回 L 中 的 最 后 一 个 元 素 。 
L.sort(): 升序 排列 L 中 的 元 素 。 
L.reverse(): 翻转 L 中 的 元 素 顺序 。 
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图 5-4 ”列表 相关 操作 


5.3 列表 与 可 变性 ”57 





5.3.1 克隆 
我 们 通常 应 该 尽量 避免 修改 一 个 正在 进行 遍历 的 列表 。 例 如 ， 考 虑 以 下 代码 : 


def removeDups(L1，L2) : 
""" 假 设 L1 和 L2 是 列表 ， 
删除 L2 中 出 现 的 Ll 中 的 元 素 """ 
for el in L1: 
if el in L2: 
L1.remove(el1) 
L1 = [1,2,3,4] 
L2 = [1,2,5,6] 
removeDups(L1, L2) 
print('L1 =', L1) 


你 会 惊奇 地 发 现 ， 代 码 会 输出 : 

L1 = [2，3，4] 

在 for 循 环 中 ，Python 使 用 一 个 内 置 计数 器 跟踪 程序 在 列表 中 的 位 置 ， 内 部 计数 器 在 每 次 迭 
代 结 束 时 都 会 增加 1。 当 计数 器 的 值 等 于 列表 的 当前 长 度 时 ， 循 环 终止 。 如 果 循 环 过 程 中 列表 没 
有 发 生 改 变 , 那么 这 种 机 制 是 有 效 的 , 但 如 果 列 表 发 生 改 变 , 就 会 产生 出 乎 意料 的 结果 。 本 例 中 ， 
内 置 计数 器 从 e 开 始 计数 ， 程 序 发 现 了 L1[8] 在 L2 中 ， 于 是 删除 了 它 一 一 将 L1 的 长 度 减 少 到 3。 然 
后 计数 器 增加 1， 代 码 继续 检查 L1[1] 的 值 是 否 在 L2 中 。 请 注意 ， 这 时 已 经 不 是 初始 的 L1[1] 的 值 
(2) 了 ， 而 是 当前 的 L1[1] 的 值 (3 )。 眼 见 为 实 ， 现 在 你 清楚 列表 在 循环 时 被 修改 会 发 生 什 么 。 
但 和 弄 清楚 这 个 问题 并 不 容易 ， 而 且 发 生 的 事情 也 不 是 我 们 故意 为 之 ， 就 像 这 个 例子 一 样 。 

避免 这 种 问题 的 方法 是 使 用 切片 操作 克隆 ”( 即 复制 ) 这 个 列表 ， 并 使 用 for el in L1[:] 
这 种 写法 。 请 注意 下 面 这 种 写法 : 

newL1 = L1 

for el in newL1l: 


不 能 解决 问题 。 这 样 不 能 复制 L1， 只 能 为 现 有 列表 引入 一 个 新 的 名 称 。 

在 Python 中 , 切片 不 是 克隆 列表 的 唯一 方法 。 表 达 式 1ist(L) 会 返回 列表 L 的 一 份 副本 。 如 果 
待 复制 的 列表 包含 可 变 对 象 ,而 且 你 也 想 复制 这 些 可 变 对 象 ， 那 么 可 以 导入 标准 库 模块 copy， 然 
后 使 用 函数 copy.deepcopy。 


5.3.2 ”列表 推导 


列表 推导 式 提供 了 一 种 简洁 的 方式 , 将 某 种 操作 应 用 到 序列 中 的 一 个 值 上 。 它 会 创建 一 个 新 
列表 ， 其 中 的 每 个 元 素 都 是 一 个 序列 中 的 值 ( 如 男 一 个 列表 中 的 元 素 ) 应 用 给 定 操作 后 的 结果 。 
例如 : 


L = [x**2 for x in range(1,7)] 
print(L) 




























































































@ 对 动物 (包括 人 类 ) 的 克隆 会 引发 大 量 技术 、 伦 理 和 精神 上 的 难题 。 幸 运 的 是 ， 对 Python 对 象 的 克隆 没有 这 些 问题 。 
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会 输出 : 

[1, 4, 9, 16, 25, 36] 

列表 推导 中 的 for 从 旬 后 面 可 以 有 一 个 或 多 个 if 语 句 和 for 语 句 ， 它 们 可 以 应 用 到 for 子 句 产 
生 的 值 。 这 些 附加 从 名 可 以 修改 第 一 个 for 从 句 生成 的 序列 中 的 值 , 并 产生 一 个 新 的 序列 。 例如， 
以 下 代码 : 

mixed = [1, 2, 'a', 3, 4.6] 

print([x**2 for x in mixed if type(x) == int]) 
对 mixed 中 的 整数 求 平方 ， 然 后 输出 [1，4，9]。 

有 些 Python 程序 员 会 以 非常 微妙 的 方式 使 用 列表 推导 , 但 这 并 不 值得 大 力 吹捧 。 请 记 住 ， 其 
他 人 可 能 需要 阅读 你 的 代码 ， 而 “微妙 ”并 不 总 是 每 个 人 都 需要 的 东西 。 


5.4 函数 对 象 


在 Python 中 ， 函 数 是 一 等 对 象 。 这 意味 着 我 们 可 以 像 对 待 其 他 类 型 的 对 象 ( 如 int 或 1ist ) 
一 样 对 竺 函数 。 函数 可 以 具有 类 型 , 例如 , 表达 式 type(abs) 的 值 是 <type 'built-in_function_ 
or_method'>; 函数 可 以 出 现在 表达 式 中 ， 如 作为 赋值 语句 的 右 侧 项 或 作为 函数 的 实 参 ; 函数 可 
以 是 列表 中 的 元 素 ; 等 等 。 

使 用 函数 作为 实 参 可 以 实现 一 种 名 为 高 阶 编程 的 编码 方式 , 这 种 方式 与 列表 结合 使 用 非常 方 
便 ， 如 图 5-5 所 示 。 
























































def applyToEach(L, f): 
"" "假设 [是 列表 ，f 是 函数 
将 F(e) 应 用 到 [的 每 个 元 素 ， 并 用 返回 值 替换 原来 的 元 素 ”"" 
for i in range(len(L)): 


L[i] = f(L[i]) 


L = [1，-2，3.33] 

print('L =", L) 

print('Apply abs to each element of L.') 
applyToEach(L, abs) 

print('L =", L) 

print('Apply int to each element of', L) 
applyToEach(L, int) 

print('L =", L) 

print('Apply factorial to each element of', L) 
applyToEach(L, factR) 

print('L =", L) 

print('Apply Fibonnaci to each element of', L) 
applyToEach(L, fib) 

print('L =", L) 

















图 5-5 ”将 函数 应 用 到 列表 中 的 元 素 


5.4 函数 对 象 ”59 





函数 applyToEach 被 称 为 高 阶 函 数 ， 因 为 它 有 一 个 参数 本 身 就 是 函数 。 第 一 次 调用 
applyToEach 时 ， 它 对 L 中 的 每 个 元 素 应 用 Python 内 置 的 一 元 函数 abs ， 以 修改 L 中 的 值 。 第 二 次 
调用 时 , 它 对 每 个 元 素 应 用 一 个 类 型 转换 。 第 三 次 调用 时 , 它 使 用 对 每 个 元 素 应 用 函数 factR ( 定 
义 在 图 4-5 中 ) 的 结果 ， 替 换 了 相应 元 素 。 第 四 次 调用 时 ， 它 使 用 对 每 个 元 素 应 用 函数 fib (定义 
在 图 4-7 中 ) 的 结果 ， 替 换 了 相应 元 素 。 这 段 代 码 最 后 会 输出 : 


L = [1，-2，3.33] 

Apply abs to each element of L. 

L = [1，2，3.33] 

Apply int to each element of [1, 2, 3.33] 

L = [1，2，3] 

Apply factorial to each element of [1，2，3] 
L = [1, 2, 6] 

Apply Fibonnaci to each element of [1, 2, 6] 
L = [1，2，13] 


Python 中 有 一 个 内 置 的 高 阶 函 数 map ， 它 的 功能 与 图 S- ee 数 相 似 ， 但 
适用 范围 更 广 。map 消 数 被 设计 为 与 for 循 环 结 合 使 用 。 在 map 函 数 的 最 简 形式 中 ， 第 一 个 参数 是 
个 一 元 函数 ( 即 只 有 一 个 参数 的 函数 )， 第 二 个 参数 是 有 序 的 值 集合 ， 染 从 下风 人 站 一 元 函数 
的 参数 。 

在 for 循 环 中 使 用 map 函 数 时 ， 它 的 作用 类 似 于 range 函 数 ， 为 循环 的 每 次 迭代 返回 一 个 值 。" 

这 些 值 是 对 第 二 个 参数 中 的 每 个 元 素 应 用 一 元 函数 生成 的 。 例 如 ， 下 面 的 代码 : 

for i in map(fib, [2, 6, 4]): 

print(i) 

会 输出 : 
2 


13 
5 


更 一 般 的 形式 是 , map 的 第 一 个 参数 可 以 是 具有 7 个 参数 的 函数 , 在 这 种 情况 下 , 它 后 面 必 须 
跟随 着 n 个 有 序 集合 ( 这些 集合 的 长 度 都 一 样 )。 例 如， 下 面 的 代码 : 

L1 = [1, 28, 36] 

L2 = [2, 57, 9] 


for i in map(min, L1, L2): 
print(i) 


会 输出 : 
1 


28 
9 


Python 还 支持 创建 匿名 函数 ( 即 没 有 绑 定名 称 的 函数 )， 这 时 要 使 用 保留 字 lambda。Lambda 
表达 式 的 一 般 形 式 为 : 










































































J@ 在 Python 2 中 , map 不 是 每 次 返回 一 个 值 。 相反 , 它 返回 一 个 列表 。 也 就 是 说 , 其 行为 方式 更 像 是 Python 2 中 的 range 
了 商 数 ， 而 不 是 xrange 函 数 。 
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lambda <sequence of variable names>: 《expressiony> 


举例 来 说 ，Lambda 表 达 式 lambda x，y: x#y 会 返回 一 个 函数 ， 这 个 函数 的 返回 值 为 两 个 参 
数 的 乘积 。Lambda 表 达 式 经 常用 作 高 阶 函 数 的 实 参 。 例 如 ， 下 面 的 代码 : 


L=[] 

for i in map(lambda x, y: x**y, [1 ,2 ,3，4]，[3，2，1，6]): 
L.append(i) 

print(L) 


会 输出 [1， 4， 3， 1]。 


5.5 字符 串 、 元 组 、 范 围 与 列表 


我 们 已 经 介绍 了 四 种 不 同 的 序列 类 型 : str、tuple、range 和 1ist。 它 们 的 共同 之 处 在 了 
都 可 以 使 用 图 $-6 中 描述 的 操作 ， 图 $-7 还 总 结 了 一 些 其 他 的 异同 。 





tl 




















seq[i]: 返回 序列 中 的 第 i 个 元 素 。 
len(sep): 返回 序列 长 度 。 

seq1 + seq2: 返回 两 个 序列 的 连接 (不 适用 于 range ) 。 

n*seq: 返回 一 个 重复 了 n 次 seq 的 序列 。 

seq[start:end]: 返回 序列 的 一 个 切片 。 

e in seq: 如 果 序 列 包含 se， 则 返回 True， 和 否则 返回 False。 

e not in seq: 如 果 序 列 不 包含 e， 则 返回 True， 和 否则 返回 False。 
for e in seq: 遍历 序列 中 的 元 素 。 










































































图 5-6 ”序列 类 型 的 通用 操作 





























类 型 元 素 类 型 字面 量 示 例 是 否 可 变 
str 字符 型 "a's abe 否 
tuple 任意 类 型 ()、 (3,)、 ('abc', 4) 否 
range 整 型 range(16) 、range(1，16，2) 否 
list 任意 类 型 []、 [3]. ['abc', 4] 是 























图 5-7 序列 类 型 对 比 


Python 程序 员 使 用 列表 的 频率 远 超 元 组 ， 因 为 列表 是 可 变 的 ,它们 可 以 在 计算 过 程 中 逐步 构 
建 。 例 如 ， 以 下 代码 可 以 增 量 建立 一 个 列表 ， 包 含 另 一 个 列表 中 的 所 有 偶数 : 


evenElems = [] 
for e in L: 
if e%2 == 6: 
evenElems .append(e) 


元 组 的 一 个 优势 就 在 于 它 是 不 可 变 的 ， 所 以 别名 对 它 来 说 不 是 什么 问题 。 与 列表 不 同 , 元 组 
作为 不 可 变 对 象 的 男 一 个 优势 是 可 以 作为 字典 中 的 键 ，5.6 闻 将 介绍 字典 。 
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因为 字符 串 只 能 包含 字符 ,所 以 应 用 范围 远 远 小 于 元 组 和 列表 。 但 另 一 方面 ,处 理 字符 串 时 
有 大 量 内 置 方法 可 以 使 用 ， 这 使 得 完成 任务 非常 轻松 。 图 5-8 包 含 了 一 些 字符 串 方法 的 简介 。 请 
记 住 ， 字 符 串 是 不 可 变 的 ， 所 以 这 些 方法 都 返回 一 个 值 ， 而 不 会 对 原 字符 串 产 生 副 作用 。 






































.count(s1):; 计算 字符 串 s1 在 s 中 出 现 的 次 数 。 

find(s1): 返回 子 字 符 串 s1 在 s 中 第 一 次 出 现时 的 索引 值 ， 如 果 s1 不 在 s 中 ， 则 返回 -1。 
rfind(s1): 功能 与 find 相 同 ， 只 是 从 s 的 末尾 开始 反 向 搜索 (rfind 中 的 r 表 示 反 向 ) 。 
index(s1): 功能 与 find 相 同 ， 只 是 如 果 s1 不 在 s 中 ， 则 抛 出 一 个 异常 (第 7 章 ) 。 

index(s1): 功能 与 index 相 同 ， 只 是 从 s 的 末尾 开始 。 

lower(): 将 s 中 的 所 有 大 写字 母 转换 为 小 写 。 

replace(old，new): 将 s 中 出 现 过 的 所 有 字符 串 o1d 替 换 为 字符 串 new。 

.rstrip(): 去 掉 s 末 尾 的 空白 字符 。 

.split(d): 使 用 d 作 为 分 隔 符 拆 分 字符 串 s, 返回 s 的 一 个 子 字符 串 列表 。 例 如 , 'David Guttag plays 
basketball' .split('') 的 值 是 ['"David'，"'Guttag'， 'plays'，'basketbal1']。 如 果 d 被 省 略 ， 则 
使 用 任意 空白 字符 串 拆 分 子 字符 串 。 
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图 5-8 ”一 些 字符 串 方法 


split 是 比较 重要 的 内 置 方法 之 一 ， 它 使 用 两 个 字符 串 作 为 参数 。 第 二 个 字符 串 设 定 了 一 个 
分 隔 符 ， 将 第 一 个 参数 拆 分 成 一 系列 子 字符 串 。 例 如 : 


print('My favorite professor--John G.--rocks'.split(' ')) 
print('My favorite professor--John G.--rocks'.split('-')) 
print('My favorite professor--John G.--rocks'.split('--')) 


会 输出 : 


['My', 'favorite', 'professor--John', 'G.--rocks'] 
['My favorite professor', '', 'John G.', '', 'rocks'] 
['My favorite professor', 'John G.', "rocks '] 


第 二 个 参数 是 可 选 的， 如 果 省 略 该 参数 ， 则 使 用 任意 空白 字符 ( 空格 、 制 表 符 、 换 行 符 、 回 
车 和 分 页 符 ) 组 成 的 字符 串 拆 分 第 一 个 字符 串 。 


5.6 字典 


字典 (dict，dictionary 的 缩写 ) 类 型 的 对 象 与 列表 很 相似 ， 区 别 在 于 字典 使 用 键 对 其 中 的 值 
进行 引用 ， 可 以 将 字典 看 作 一 个 键 / 值 对 的 集合 。 字 典 类 型 的 字面 量 用 大 括号 表示 ， 其 中 的 元 素 
写法 是 键 加 冒号 再 加 上 值 。 例 如 ， 以 下 代码 : 


monthNumbers = {'Jan':1, 'Feb':2, 'Mar':3, 'Apr':4, 'May':5, 
1:'Jan', 2:'Feb', 3:'Mar', 4:'Apr', 5:'May'} 

print('The third month is ' + monthNumbers[3]) 

dist = monthNumbers['Apr'] - monthNumbers['Jan'] 

print('Apr and Jan are', dist, 'months apart') 


会 输出 : 


The third month is Mar 
Apr and Jan are 3 months apart 
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dict 中 的 项 目 是 无 序 的 , 不 能 通过 索引 引用 。 这 就 是 为 什么 monthNumbers[1] 确 定 无 疑 地 指 
向 键 为 1 的 项 目 ， 而 不 是 第 二 个 项 目 。 

和 列表 一 样 ， 字 典 是 可 变 的 。 我 们 可 以 使 用 以 下 代码 增加 一 个 项 目 : 

monthNumbers[ "June'] = 6 
或 者 改变 一 个 项 目 : 

monthNumbers['May'] = 'V 

字典 是 Python 最 强大 的 功能 之 一 , 它 可 以 大 大 降低 编程 的 难度 。 举 例 来 说 , 在 图 5-9 中 , 我 们 
使 用 字典 完成 了 一 个 ( 相当 恺 怖 的 ) 程序 ， 实 现 了 不 同 语言 互 译 。 因 为 有 行 代码 太 长 了 , 在 一 行 
中 放 不 下 ， 所 以 我 们 使 用 反 斜 村 \， 表 示 下 一 行 是 上 一 行 的 延续 。 






































EtoF = {'bread':'pain', "wine':'vin'， "With': "avec'，'I :Je'， 
"eat':'mange', 'drink':'bois', 'John':'Jean', 
"friends':'"'amis', 'and': 'et', 'of':'du','red':'rouge'} 

FtoE = {'pain':'bread', 'vin':'wine', 'avec':'with', 'Je':'I', 
"mange':'eat', 'bois':'drink', 'Jean':'John', 
"amis':'friends', 'et':'and', 'du':'of', 'rouge':'red'} 

dicts = {'English to French':EtoF, 'French to English':FtoE} 


def translateWord(word, dictionary): 
if word in dictionary.keys(): 
return dictionary[word] 
elif word != "": 
return '™"" 
return word 


+ Word + 


def translate(phrase, dicts, direction): 
UCLetters = “ABCDEFGHIJKLMNOPQRSTUVWXYZ 
LCLetters = 'abcdefghijklmnopqrstuvwxyz’ 
letters = UCLetters + LCLetters 
dictionary = dicts[direction] 
translation = "" 
word = "" 
for c in phrase: 
if c in letters: 
word = word + c 
else: 
translation = translation\ 
+ translateWord(word, dictionary) + < 
word = "" 
return translation + ' ' + translateWord(word, dictionary) 


print translate('I drink good red wine, and eat bread.', 
dicts，English to French') 

print translate('Je bois du vin rouge.', 
dicts, 'French to English') 























图 5-9 (糟糕 的 ) 文本 翻译 
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中 的 代码 会 输出 : 


Je bois "good" rouge vin, et mange pain. 
I drink of wine red. 


请 记 住 字典 是 可 变 的 ， 所 以 我 们 必须 注意 副作用 。 例 如 ， 以 下 代码 : 

FtoE['bois'] = 'wood'" 

Print(translate('Je bois du vin rouge.', dicts, 'French to English')) 
会 输出 : 

I wood of wine red 

多 数 编程 语言 都 不 包含 这 种 提供 从 键 到 值 的 映射 关系 的 内 置 类 型 。 然 而, 程序 
他 类 型 实现 同样 的 功能 。 例 如 ， 使 用 其 中 元 素 为 键 / 值 对 的 列表 就 可 以 轻松 实现 字 
与 一 个 简单 的 函数 进行 关联 搜索 ， 如 下 所 示 : 

def keySearch(L, k): 
for elem in L: 
if elem[6] == k: 


return elem[1] 
return None 


这 种 实现 的 问题 在 于 计算 效率 太 低 。 最 坏 情况 下 , 程序 执行 一 次 搜索 可 能 需要 检查 列表 中 的 
每 一 个 元 素 。 而 内 置 实现 则 非常 快 ， 它 使 用 的 技术 称 为 散 列 ， 搜 索 时 间 几 乎 与 字典 大 小 无 关 。 第 
10 章 将 介绍 散 列 技术 。 

可 以 使 用 for 语 句 遍历 字典 中 的 项 目 。 但 分 配给 迭代 变量 的 值 是 字典 
过 程 中 没有 定义 键 的 顺序 。 例 如 ， 以 下 代码 : 


monthNumbers = {'Jan':1, 'Feb':2, 'Mar':3, 'Apr':4, 'May':5, 
1:'Jan', 2:'Feb', 3:'Mar', 4:'Apr', 5:'May'} 






































员 可 以 使 用 其 
典 ， 然后 可 以 
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键 ， 不 是 键 / 值 对 。 和 迭代 








keys = [] 

for e in monthNumbers: 
keys.append(str(e)) 

print(keys) 

keys.sort() 

print(keys) 


可 能 会 输出 : 

['Jan'’, 'Mar', '2', '3', '4', '5', '1', 'Feb', 'May', 'Apr'] 

['1', '2', '3', '4',， '5', 'Apr', 'Feb', 'Jan', 'Mar', 'May'] 

keys 方 法 返回 一 个 dict_keys 类 型 的 对 象 。" 这 是 view 对 象 的 一 个 例子 。 视 图 中 没有 定义 视 
图 的 顺序 。 视 图 对 象 是 动态 的 ， 因 为 如 果 与 其 相关 的 对 象 发 生变 化 , 我 们 就 可 以 通过 视图 对 象 察 
觉 到 这 种 变化 。 例 如 : 

birthstones = {'Jan':'Garnet', 'Feb':'Amethyst', 'Mar':'Acquamarine', 


"Apr':"'Diamond', 'May':'Emerald'} 
months = birthStones.keys() 















































四 在 Python 2 中 ，keys 返 回 一 个 包含 字典 键 的 列表 。 
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print(months) 
birthsStones['June'] = 'Pearl’ 
print(months) 


可 能 会 输出 : 

dict keys(['Jan', 'Feb', 'May', 'Apr', 'Mar']) 

dict keys(['Jan', 'Mar', 'June', 'Feb', 'May', 'Apr']) 

可 以 使 用 for 语 句 遍 历 dict_type 类 型 的 对 象 ， 也 可 以 使 用 in 检 测 其 中 的 成 员 。dict_type 
类 型 的 对 象 可 以 很 容易 地 转换 为 列表 ， 如 1ist(months)。 
并 非 所 有 对 象 都 可 以 用 作 字 典 键 : 键 必须 是 一 个 可 散 列 类 型 的 对 象 。 如 果 一 个 类 型 具有 以 下 
两 条 性 质 ， 就 可 以 说 它 是 “可 散 列 的 ”: 
口 具 有 __hash_ 方法 ,可 以 将 一 个 这 种 类 型 的 对 象 映射 为 一 个 int 值 , 而 且 对 于 每 一 个 对 象 ， 
由 _hash_ 返回 的 值 在 这 个 对 象 的 生命 周期 中 是 不 变 的 ; 
口 具有 _ eq 方法， 可 以 比较 两 个 对 象 是 否 相 等 。 

所 有 Python 内 置 的 不 可 变 类 型 都 是 可 散 列 的 ， 而 且 所 有 Python 内 置 的 可 变 类 型 都 是 不 可 散 列 
的 。 使 用 元 组 作为 字典 键 往往 很 方便 ， 例 如 ， 如 果 使 用 (flightNumber, day) 这 种 形式 的 元 组 表 
示 航 空 公司 的 航班 , 那么 可 以 很 轻松 地 使 用 这 种 元 组 作为 字典 中 的 键 , 来 映射 航班 与 到 达 时 间 之 
间 的 关系 。 

与 列表 一 样 , 字典 也 有 很 多 非常 有 用 的 方法 ,包括 一 些 删 除 元 素 的 方法 。 我 们 不 在 此 一 一 列 
举 ， 但 在 本 书后 面 的 例子 中 ， 我 们 会 为 了 方便 而 使 用 一 些 字 典 方法 。 图 $-10 包 含 了 一 些 最 常用 的 
字典 操作 。” 







































































len(d): 返回 d 中 项 目的 数量 。 
d.keys(): 返回 d 中 所 有 键 的 视图 。 
d.values(): 返回 d 中 所 有 值 的 视图 。 
k in d: 如 果 k 在 d 中 ， 则 返回 True。 
d[k]: 返回 d 中 键 为 k 的 项 目 。 
d.get(k，v): 如 果 k 在 d 中 ， 则 返回 d[k]， 否 则 返回 v。 

d[k] = v: 在 d 中 将 值 v 与 键 k 关 联 。 如 果 已 经 有 一 个 与 k 关 联 的 值 ， 则 替换 。 
del d[k]: 从 d 中 删除 键 k。 

for k in d: 遍历 d 中 的 键 。 































































































GD 所 有 这 些 方法 在 Python 3 中 都 返回 一 个 视图 对 象 ， 在 Python 2 中 都 返回 一 个 列表 。 
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我 真 的 不 想 指出 这 一 点 ， 但 潘 格 洛斯 博士 "确实 错 了 ， 我 们 并 未 生活 在 一 个 “可 能 是 最 好 的 
世界 ”中 。 有 的 地 方 滴 雨 不 落 ， 有 的 地 方 大 雨 倾盆 ; 有 的 地 方 天 寒 地 冻 ， 有 的 地 方 赤 日 炎炎 ， 而 
有 的 地 方 则 冬日 严寒 、 夏 季 了 酷热 。 有 时 股市 会 呈现 断崖 式 暴 跌 。 还 有 , 令 人 恼火 的 是 , 我 们 的 程 
序 在 第 一 次 运行 时 总 不 正常 。 

关于 如 何 处 理 最 后 一 个 问题 的 书 已 经 够 多 了 , 读 读 这 些 书 你 会 学 到 很 多 。 但 为 了 给 你 一 些 启 
示 , 帮助 你 及 时 解决 遇 到 的 问题 , 我 们 在 本 章 会 高 度 精简 地 讨论 程序 的 测试 与 调试 。 尽管 所 有 编 
程 示例 都 是 使 用 Python 编写 的 ， 但 其 中 的 基本 原则 可 以 应 用 于 任何 复杂 系统 的 调试 。 
测试 指 通过 运行 程序 以 确定 它 是 否 按照 预期 工作 。 调 试 则 指 修复 已 知 的 未 按 预 期 工作 的 
程序 。 

测试 和 调试 不 是 你 编写 完 程 序 之 后 才 开始 考虑 的 问题 , 优秀 的 程序 员 在 设计 程序 时 , 就 已 经 
开始 考虑 如 何 使 程序 易于 测试 和 调试 了 。 关 键 就 是 将 程序 分 解 成 独立 的 部 件 , 可 以 在 不 受 其 他 部 
件 影响 的 情况 下 实现 、 测 试 和 调试 。 本 书 至 此 为 止 只 讨论 了 一 种 程序 模块 化 的 机 制 一 一 函数 , 所 
以 现在 我 们 的 所 有 示例 都 基于 函数 。 当 我 们 讲 到 其 他 模块 化 机 制 ， 特别 是 类 的 时 候 , 会 继续 讨论 
本 章 的 一 些 主题 。 

使 程序 正确 工作 的 第 一 步 是 让 语言 系统 允许 程序 运行 , 也 就 是 说 , 要 消除 不 需 运 行程 序 就 可 
以 检测 到 的 语法 错误 和 静态 语义 错误 。 如 果 你 还 没有 解决 程序 中 的 这 些 问 题 , 那么 就 还 没有 做 好 
准备 学 习 这 一 章 。 再 在 你 的 程序 上 花 点 时 间 吧 ， 然 后 回来 继续 阅读 。 


6.1 测试 


关于 测试 ,最 重要 的 是 清楚 它 的 目的 是 证 明 错误 的 存在 ， 而 不 是 证 明 程序 没有 错误 。 艾 效 赫 
尔 : 戴 克 斯 特 拉 说 过 :“ 程 序 测试 是 用 来 证 明 错 误 的 存在 ， 而 不 是 展示 没有 错误 !1”“ 据 说 爱 因 斯 
坦 也 说 过 :“ 多 少 次 实验 也 不 能 证 明 我 是 对 的 ， 但 一 次 实验 就 可 以 证 明 我 是 错 的 。” 

为 什么 会 这 样 呢 ? 因为 即使 是 最 简单 的 程序 也 有 无 数 种 可 能 的 输入 。 例 如 , 考虑 一 个 想 满足 
以 下 规范 的 程序 : 


















































































































































































































































QD Dr Pangloss， 伏 尔 泰 小 说 《老实 人 》 中 的 人 物 ， 以 毫 无 根据 的 乐观 著称 。 编者 注 
@“Notes On Structured Programming” , Technical University Eindhoven, TH.Report 70-WSK-03, April 1970. 














66 第 6 章 测试 与 调试 





def isBigger(x, y): 
""" 假 设 x 和 y 是 整数 
如 果 Xx 小 于 y 则 返回 True， 否 则 返回 False。""" 


毫 不 夸张 地 说 ,使 用 所 有 整数 对 运行 这 个 程序 会 非常 枯燥 乏味 。 最 好 的 方式 是 ， 只 使 用 一 些 
特殊 的 整数 对 来 运行 程序 ， 如 果 程 序 中 有 错误 ， 那 么 这 些 整数 对 就 应 该 极 有 可 能 产生 错误 答案 。 

测试 的 关键 就 是 找到 这 样 一 组 输入 ,可 以 称 之 为 测试 套件 。 它 有 很 大 可 能 发 现 程序 错误 ， 又 
不 需要 程序 运行 太 长 时 间 。 找 到 这 样 的 输入 的 关键 是 ， 对 所 有 可 能 的 输入 空间 进行 分 区 , 将 其 划 
分 为 对 程序 正确 性 提供 相同 信息 的 多 个 子 集 , 然后 构建 测试 套件 , 使 其 包含 来 自 每 个 分 区 的 至 少 
一 个 输入 。( 一般 情况 下 ， 构 建 这 样 一 个 测试 套件 实际 上 是 不 可 能 的 ， 可 以 把 它 看 成 是 一 个 不 能 
达到 的 理想 状态 。) 
集合 的 分 区 可 以 将 集合 分 割 为 多 个 子 集 ， 并 使 得 初始 集合 中 的 每 个 元 素 都 恰好 属于 一 个 子 
集 。 例 如 ， 对 于 isBigger(x，y)， 可 能 的 输入 集合 为 所 有 整数 的 成 对 组 合 。 对 这 个 集合 我 们 可 
以 将 其 划分 为 7 个 子 集 : 


































































































x 为 正 ，y 为 正 x 为 负 ，y 为 负 
x 为 正 ，y 为 负 x 为 负 ，y 为 正 
Xx=060,y=0 x = 0, yz*0 x#0, yz0 











如 果 使 用 来 自 每 个 子 集 的 至 少 一 个 值 对 函数 实现 进行 测试 ， 就 非常 有 可 能 (不 一 定 ) 暴露 可 
能 存在 的 错误 。 

对 于 多 数 程序 , 适当 地 划分 输入 空间 说 起 来 容易 ， 做 起 来 就 太 难 了 。 我 们 通常 需要 将 代码 和 
规范 结合 起 来 ， 进行 各 种 路 径 探 索 ， 并 在 此 基础 上 发 展 出 一 种 启发 式 方法 。 基 于 代码 探索 路 径 的 
局 发 式 方法 称 为 白 盒 测 试 ， 基 于 规范 探索 路 径 的 启发 式 方法 称 为 黑 盒 测试 。 


6.1.1 黑 盒 测试 

















理论 上 , 构建 黑 盒 测试 时 不 需要 查看 要 测试 的 代码 。 黑 盒 测试 允许 测试 者 和 开发 者 来 自 不 同 
人 群 。 当 我 们 这 些 讲授 编程 课程 的 教师 为 分 配给 学 生 的 问题 集合 生成 测试 案例 时 , 就 是 在 建立 黑 
盒 测试 套件 。 商 业 软件 的 开发 者 经 常 要 配备 一 个 质量 保证 团队 , 这 个 团队 在 很 大 程度 上 是 独立 于 
开发 团队 的 。 

生成 测试 套件 时 , 代码 中 的 错误 可 能 会 潜伏 到 测试 套件 中 ,上 面 这 种 团队 之 间 的 独立 性 可 以 
减少 这 种 可 能 性 。 举 例 来 说 ,程序 编写 者 可 能 做 了 一 个 错误 的 隐 含 假设 ， 即 不 能 使 用 负数 调用 画 
数 , 那么 如 果 由 这 个 人 构建 程序 的 测试 套件 ,就 很 有 可 能 继续 重复 这 个 错误 , 不 使 用 负数 参数 测 
试 这 个 函数 。 

黑 盒 测试 的 另外 一 个 好 处 是 ， 具体 实现 发 生变 化 时 ,这 种 测试 仍然 适用 。 因 为 生成 测试 数据 
与 具体 实现 没有 关系 ， 所 以 具体 实现 改变 时 ,测试 不 需 随 之 改变 。 

我 们 前 面 说 过 ,生成 黑 盒 测试 数据 的 有 效 方法 是 通过 规范 探索 测试 路 径 。 看 一 下 下 面 的 规范 : 

def sqrt(x, epsilon): 


"" "假设 x 和 epsilon 是 浮 点 数 
x >= 0 
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epsilon > 6 
如 果 存 在 满足 x-epsilon <= result*result <= x+epsilon 的 result， 
就 返回 result""" 


这 个 规范 看 上 去 只 有 两 条 路 径 : 一 条 对 应 x = 6， 一 条 对 应 x > 8。 但 常识 告诉 我 们 ， 尽 管 
测试 这 两 种 情形 是 必要 的 ,但 绝对 不 够 。 

还 需要 测试 边界 条 件 。 测试 列表 时 ,边界 条 件 包括 空 列表 、 只 有 一 个 元 素 的 列表 以 及 包含 列 
表 的 列表 。 测 试 数值 时 ， 典 型 的 边界 条 件 就 是 非常 小 的 值 、 非 常 大 的 值 和 “正常 ” 值 。 对 于 例子 
中 的 sqrt 函 数 ， 使 用 图 6-1 中 的 x 和 epsilon 值 应 该 比较 理想 。 

































































X epsilon 
0.0 0.0001 
25.0 0.0001 
0.5 0.0001 
2.0 0.0001 
2.0 1.0/2.0**64.0 
1.0/2.0**64 1.0/2.0**64.0 
2.0**64.0 1.0/2.0**64.0 
1.0/2.0**64.0 2.0**64.0 
2.0**64.0 2.0**64.0 














图 6-1 测试 边界 条 件 


前 四 行 是 一 些 典 型 的 测试 用 例 。 请 注意 ，x 值 包括 一 个 完全 平方 数 、 一 个 小 于 1 的 数 和 一 个 根 
为 无 理 数 的 数 。 如 果 这 些 测试 有 任何 一 种 没有 通过 ， 那 么 程序 中 肯定 有 错误 需要 修复 。 

其 余 几 行 测试 了 x 和 epsilon 取 特别 大 的 值 和 特别 小 的 值 的 情形 。 如 果 有 任何 一 种 测试 失败 ， 
说 明 程 序 有 需要 修改 的 地 方 。 可 能 是 程序 中 有 错误 需要 修复 , 也 可 能 需要 修改 规范 以 使 它 更 容易 
被 满足 。 例 如 ， 当 epsilon 特 别 小 的 时 候 ， 还 希望 能 找到 合适 的 平方 根 近似 值 ， 那 对 程序 的 要 求 
就 太 高 了 。 

还 需要 考虑 的 一 个 重要 边界 条 件 是 别名 。 例 如 ， 下 面 的 代码 : 

def copy(L1, L2): 

"" "假设 L1 和 L2 是 列表 
使 L2 和 L1 元 素 相 同 """ 
删除 L2 中 的 所 有 元 素 
删除 L2 的 第 一 个 元 素 
向 空 列表 L2 添 加 L1 的 元 素 
L2.append(e) 
多 数 情况 下 是 有 效 的 ， 但 L1 和 L2 引 用 同一 个 列表 时 ， 它 就 失效 了 。 如 果 测 试 套件 中 没有 包括 像 
copy(L，L) 这 样 的 函数 调用 ， 就 永远 不 会 发 现 这 个 错误 。 
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6.1.2 ”和 白 盒 测试 


墨盒 测试 是 必需 的 , 但 通常 也 是 不 够 的 。 不 检查 代码 内 部 结构 ， 就 不 可 能 知道 哪 种 测试 用 例 
能 提供 新 的 信息 。 看 看 下 面 这 个 普通 的 例子 : 
def isprime(x): 
""" 假 设 Xx 是 非 负 整数 
如 果 X 是 素数 ， 则 返回 True， 否 则 返回 False""" 
if x <= 2: 
return False 
for i in range(2, x): 
if x%i == 6: 
return False 
return True 


查看 代码 可 知 ， 因 为 测试 条 件 为 if x <= 2， 所 以 6、1 和 2 都 可 以 作为 一 种 特殊 情形 ， 都 需 
要 测试 。 如 果 不 看 这 段 代 码 ， 可 能 就 不 会 测试 isPrime(2) ， 也 就 不 会 发 现 isPrime(2) 这 个 函数 
调用 会 返回 False， 错 误 地 认为 2 不 是 质数 。 

构建 白 盒 测 试 套件 要 比 黑 盒 测 试 套件 容易 得 多 。 规 范 经 常 是 不 完整 的 , 也 十 分 简单 ， 这 使 得 
我 们 很 难 估计 黑 盒 测试 套件 对 输入 空间 的 覆盖 程度 。 相 比 之 下 , 代码 中 反映 的 路 径 则 定义 得 非常 
清楚 ,， 白 盒 测 试 套件 对 输入 空间 的 履 盖 程 度 相 对 也 比较 容易 。 实 际 上 ,现在 就 有 一 些 商业 工具 可 
以 比较 客观 地 测量 白 盒 测试 的 完备 程度 。 

如 果 一 个 白 盒 测试 套件 可 以 测试 程序 中 所 有 潜在 路 径 ， 那 我 们 就 可 以 认为 它 是 路 径 完备 的 。 
一 般 来 说 ， 路 径 完备 不 可 能 达成 ， 因 为 这 取决 于 程序 中 循环 的 次 数 和 递归 的 深度 。 例 如 , 一 个 阶 
乘 函 数 的 递归 实现 对 于 每 种 可 能 的 输入 都 有 不 同 路 径 ( 因为 不 同 输入 的 递归 深度 不 一 样 )。 

而 且 ， 即 使 一 个 路 径 完备 的 测试 套件 也 不 能 保证 发 现 程 序 中 的 所 有 错误 。 看 下 面 的 代码 : 

def abs(x): 

""" 假 设 Xx 是 整数 
如 果 X>=8 返 回 Xx， 否 则 返回 -x""" 
if x < -1: 
return -x 


else: 
return x 


从 规范 中 可 知 ， 有 两 种 可 能 的 情形 : x 为 负数 ， 或 者 不 为 负数 。 这 说 明 输入 集合 {2，-2} 足 
以 覆盖 规范 中 的 所 有 路 径 。 这 个 测试 套件 对 我 们 来 说 还 有 一 个 额外 的 惊喜 : 它 同 时 也 测试 了 程序 
代码 中 的 所 有 路 径 ， 所 以 看 起 来 也 是 一 个 路 径 完 备 的 白 盒 测 试 套件 。 美 中 不 足 的 是 ,这 个 测试 套 
件 忽 略 了 这 样 一 个 事实 : abx( -1) 会 返回 -1。 
尽管 白 盒 测 试 有 很 多 局 限 性 ， 但 它 提供 的 一 些 经 验 准则 仍然 值得 我 们 参考 。 

口 测试 所 有 if 语句 的 所 有 分 支 。 
口 必须 测试 每 个 except 子 句 (参见 第 7 章 )。 
口 对 于 每 个 for 循 环 ， 需 要 以 下 测试 用 例 : 
@ 未 进入 循环 〈 例如， 如 果 使 用 循环 遍历 列表 中 的 所 有 元 素 ， 则 必须 测试 空 列表 ); 
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和 循环 体 只 被 执行 一 次 ; 
@ 循环 体 被 执行 多 于 一 次 ; 
口 对 于 每 个 while 循 环 : 

a 包括 上 面 for 循 环 中 的 所 有 用 例 ; 

晶 还 要 包括 对 应 于 所 有 跳出 循环 的 方式 的 测试 用 例 。 例 如 ， 对 于 以 while len(L) > 8 and 
not L[i] == e 开 始 的 循环 ， 测 试用 例 应 该 包括 因为 len(L) 不 大 于 0 和 因为 L[i] == e 
而 跳出 循环 的 情况 。 

口 对 于 递归 函数 ， 测 试用 例 应 该 包括 函数 没有 递归 调用 就 返回 、 只 执行 一 次 递归 调用 和 执 

行 多 次 递归 调用 的 情况 。 


6.1.3 ”执行 测试 


测试 一 般 分 为 两 个 阶段 。 第 一 个 阶段 称 为 单元 测试 。 在 这 个 阶段 中 , 测试 者 构建 并 执行 测试 ， 
用 来 确定 代码 的 每 个 独立 单元 ( 例如， 函数 ) 是 否 正常 工作 。 第 二 个 阶段 称 为 集成 测试 ， 用 来 确 
定 整个 程序 能 否 按 预 期 运行 。 在 实际 工作 中 , 测试 者 会 不 断 重 复 这 两 个 阶段 ， 因 为 如 果 集成 测试 
没有 通过 ， 那 就 还 需要 对 单个 模块 做 出 修改 。 

一 般 来 说 ,集成 测试 比 单元 测试 更 具 挑 战 性 ,原因 之 一 就 是 与 描述 单个 模块 的 预期 行为 相 比 ， 
描述 整个 程序 的 预期 行为 要 困难 得 多 。 例 如， 描述 一 个 字 处 理 软 件 的 预期 行为 ,其 困难 程度 要 远 
远 超过 描述 一 个 计算 文档 中 字符 数量 的 函数 的 预期 行为 。 规模 问题 也 会 使 集成 测试 更 加 困难 。 花 
费 数 小 时 甚至 数 天 时 间 执 行 集成 测试 是 常 有 的 事 。 

很 多 业内 软件 开发 组 织 都 配备 有 独立 于 软件 开发 团队 的 软件 质量 保证 团队 。 这 个 团队 的 任务 
就 是 确保 软件 功能 在 发 布 之 前 达到 预期 要 求 。 在 一 些 组 织 中 ， 开 发 团队 负责 单元 测试 ，QA 团 队 
负责 集成 测试 。 

在 工业 界 ， 测 试 过 程 通常 是 高 度 自动 化 的 。 测 试 者 "不 会 坐 在 终端 前 面 手动 输入 用 例 并 检查 
输出 。 他 们 会 使 用 测试 驱动 程序 ， 这 些 程序 会 自动 进行 以 下 工作 : 
口 建立 调用 待 测试 程序 ( 或 单元 ) 所 需 的 环境 ; 
口 使 用 一 个 预先 定义 的 或 自动 生成 的 输入 序列 来 调用 待 测试 程序 (或 单元 ); 
D 保存 以 上 调用 结果 ; 
口 检查 测试 结果 是 否 可 以 接受 ; 
口 自动 生成 一 个 合适 的 报告 。 

在 单元 测试 中 , 除了 建立 测试 驱动 程序 之 外 , 我 们 还 经 常 需 要 建立 测试 柱 。 测 试 驱动 程序 可 
以 模拟 使 用 待 测试 单元 的 那 部 分 程序 , 测试 桩 则 用 来 模拟 待 测试 单元 要 使 用 的 那 部 分 程序 。 测试 桩 
的 用 处 非常 大 , 因为 它 使 我 们 可 以 测试 那些 需要 某 些 软件 才能 运行 的 单元 , 有 时 候 甚至 是 需要 菜 些 
还 不 存在 的 硬件 才能 运行 的 单元 。 这 样 ， 程 序 员 团队 就 可 以 同时 开发 并 测试 一 个 系统 的 多 个 部 分 。 
理想 情况 下 ， 测 试 桩 应 该 具有 以 下 功能 : 














































































































@ 或 者 ， 也 可 以 是 在 编程 大 课 中 给 习题 集 打分 的 那个 人 。 
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口 修改 实 参 和 全 局 变量 ， 使 它们 符合 规范 ; 
口 返回 与 规范 一 致 的 值 。 




















口 检查 调用 者 提供 的 环境 和 参数 是 否 合理 ( 使 用 不 恰当 的 参数 调用 函数 是 很 常见 的 错误 ); 


建立 合适 的 测试 桩 通常 比较 困难 。 如 果 测 试 桩 要 模拟 的 是 一 个 执行 复杂 任务 的 单元 , 那么 要 


建立 这 样 一 个 测试 桩 ,而 且 它 的 行为 要 完全 符合 该 单元 的 规范 ,其 工作 量 差 不 多 相当 于 重 写 这 个 
要 模拟 的 单元 。 解 决 这 个 问题 的 一 种 方法 是 ， 限 制 测试 桩 可 以 接受 的 参数 集合 并 创建 一 个 表格 ， 




















在 其 中 列 出 测试 套件 使 用 的 每 种 参数 组 合 及 其 对 应 的 返回 值 。 





测试 过 程 自 动 化 的 一 个 显著 优点 是 更 易于 进行 回归 测试 。 程序 员 调 试 程序 时 , 非常 容易 破坏 





其 他 正常 工作 的 部 分 。 每 次 对 程序 做 出 修改 之 后 , 不 论 修改 有 多 么 小 , 我 们 
通过 它 以 前 已 经 通过 的 测试 。 


6.2 ”调试 

















都 应 该 确保 程序 还 能 


修复 软件 缺陷 的 过 程 被 称 为 调试 ， 关 于 这 个 词 的 由 来 有 一 个 迷人 的 坊间 传阅。 图 6-2 的 照片 





是 哈佛 大 学 的 一 个 研究 组 1947 年 9 月 9 日 实验 室 记 录 中 的 一 页 , 这 个 研究 组 当 
继电器 计算 机 “马克 二 号 ”。 




























时 正 致力 于 研究 艾 肯 
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图 6-2 不 是 第 一 个 bug 
有 人 断定 ， 正 是 因为 发 现 了 那 只 被 困 在 “马克 二 号 ”中 的 倒 考 的 蛾 子 ， 才 导致 debugging 这 


个 术语 的 出 现 。 但 从 照片 中 “发 现 虫 子 (bug ) 的 第 一 个 真实 案例 ”这 人 句 话 可 以 看 出 ，bug 的 引申 


含义 已 经 常用 于 描述 系统 问题 。“ 马 克 二 号 ”项 目 负 责 人 之 一 格 萝 丝 : 英里 





* 霍 珀 明确 表示 ，bug 


这 个 词 在 二 战 时 期 就 经 常用 于 描述 电子 系统 中 的 问题 。 而 且 在 那 之 前 ， 一 本 1896 年 的 电气 手册 
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Hawkins x New Catechism of Electricity 中 就 已 经 包含 了 这 个 条 目 :“ 术 语 bug 在 有 限 范 围 内 表示 电气 
设备 连接 或 运行 方面 的 错误 和 问题 。” 在 英语 中 ，bugbear 这 个 词 表示 “导致 不 必要 的 或 过 分 的 恐 
慢 或 焦虑 的 事情 ”"。 当 哈姆雷特 抱 钨 “我 生命 中 的 虫子 和 小 妖精 ”的 时 候 ， 莎 士 比 亚 将 这 个 词 
简写 成 了 bug。 

bug 这 个 词 有 时 会 使 人 们 忽略 这 样 一 个 基本 事实 : 如 果 你 写 的 程序 中 有 bug, 那 肯 定 是 你 自己 
的 问题 。 完 美 无 瑕 的 程序 中 ， 问 题 不 会 不 请 自 来 。 如 果 你 的 程序 中 有 问题 ， 那 一 定 是 你 的 错 。 错 
误 不 会 在 程序 中 繁衍 ， 如 果 你 的 程序 中 有 很 多 错误 , 那 肯定 是 因为 你 犯 了 很 多 错误 。 运行 时 错误 
可 以 按照 以 下 两 个 维度 进行 分 类 。 

口 显 性 一 隐 性 : 显 性 错误 有 明显 的 表现 ， 如 程序 前 溃 或 运行 时 间 异 常 长 〈 可 能 永 不 停止 )。 
隐 性 错误 没有 明显 的 表现 ， 程 序 会 正常 结束 ， 不 出 任何 问题 一 一 除了 给 出 一 个 错误 答案 。 
多 数 错误 都 在 二 者 之 间 ， 一 个 错误 是 否 是 显 性 的 取决 于 你 检查 程序 行为 的 周密 程度 。 

口 持续 一 间 歌 : 持续 性 错误 在 程序 每 次 使 用 相同 的 输入 运行 时 都 会 发 生 。 间 歌 性 错误 仅 在 
某 些 时 候 出 现 ， 即 使 程序 使 用 相同 输入 并 在 相同 条 件 下 运行 。 进 行 到 第 14 章 时 ， 我 们 会 
开始 编写 程序 为 随机 情形 建 模 ， 在 这 种 类 型 的 程序 中 ， 间 歇 性 错误 是 很 常见 的 。 

显 性 的 和 持续 性 的 错误 是 最 好 的 情况 。 开 发 者 不 会 对 部 署 这 种 程序 的 可 行 性 抱 任 何 约 想 , 如 
果 有 其 他 人 思春 到 想 使 用 这 种 程序 , 他 会 立刻 发 现 自己 蠢 到 不 可 救 药 。 这 种 程序 在 骨 溃 之 前 可 能 
会 做 一 些 可 怕 的 事情 ， 比 如 删除 文件 , 但 这 种 错误 至 少 会 引起 用 户 的 重视 ( 如 果 没 有 惊慌 失措 的 
话 )。 优 秀 的 程序 员 编 写 程序 时 ， 会 尽量 使 程序 错误 是 显 性 的 和 持续 性 的 ， 这 种 编程 方式 通常 称 
为 防御 性 编程 。 

下 一 种 我 们 不 希望 见 到 的 错误 是 显 性 的 间 敬 性 错误 ,一 个 几乎 所 有 时 候 都 能 计算 出 飞机 正确 
位 置 的 空中 交通 管制 系统 , 要 比 一 个 一 直 在 犯 明显 错误 的 系统 危险 得 多 。 部署 一 个 带 有 错误 程序 
的 系统 确实 可 以 维持 一 段 时 间 , 但 这 只 不 过 是 一 场 黄 粱 美梦， 问题 迟 早 会 暴露 。 如 果 发 生 错误 的 
条 件 很 容易 重 现 ， 那 么 跟踪 和 修复 错误 也 相对 比较 容易 。 如 果 引 起 错误 的 条 件 不 是 很 清楚 的 话 ， 
问题 就 非常 难以 解决 。 

以 隐 性 方式 出 错 的 程序 特别 危险 。 因 为 它们 表面 看 来 没有 问题 ， 人 们 使 用 它们 , 并 且 相 信 它 
们 在 做 正确 的 事 。 逐 渐 地 ,我 们 的 社会 将 对 软件 产生 依赖 ,这 些 软件 用 来 执行 超出 人 类 能 力 的 关 
键 计算 ,我 们 甚至 不 能 判断 软件 执行 的 这 些 计算 是 否 正确 。 因 此 , 程序 可 以 在 很 长 一 段 时 间 内 给 
出 一 个 错误 答案 , 而 我 们 根本 意识 不 到 这 个 情况 。 这 样 的 程序 可 能 而 且 已 经 造成 了 严重 危害 。 一 
个 评价 抵押 债券 投资 组 合 风险 的 程序 如 果 出 现 错误 , 会 给 银行 ( 甚至 整个 社会 ) 带 来 极 大 的 麻烦 。 
一 台 放 射 治疗 仪 如 果 比 正常 情况 发 射出 哪怕 多 一 点 或 少 一 点 的 射线 , 对 癌症 病人 来 说 都 是 生 与 死 
的 区 别 。 一 个 只 是 偶尔 出 现 隐 性 错误 的 程序 造成 的 危害 总 是 远大 于 一 直 出 错 的 程序 。 既 是 隐 性 又 
是 间 欣 性 的 错误 始终 是 最 难 发 现 和 修复 的 。 




























































































































































































































































































@ 韦 氏 新 世界 大 学 词典 
@) 2012 年 8 月 1 日 ， 骑 士 资 本 集团 股份 有 限 公司 部 署 了 一 套 新 的 股票 交易 软件 。 在 4 分钟 内 ， 软 件 错误 给 公司 造成 了 
4.4 亿 美元 的 损失 。 第 二 天 ， 骑 士 集团 的 CEO 宣 布 程序 错误 使 软件 产生 了 “无 数 错误 订单 ”。 
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6.2.1 学 习 调试 


调试 是 一 种 需要 学 习 的 技能 , 没有 人 天 生 就 会 调试 程序 。 好 消息 是 , 学 习 调 试 并 不 难 ， 而 且 
通 百 通 。 调 试 程序 的 能 力 可 以 用 来 找 出 其 他 复杂 系统 中 的 错误 ， 如 科学 实验 和 病人 。 

人 们 至 少 用 了 40 年 时 间 建 立 被 称 为 “调试 器 ”的 工具 ， 所 有 流行 的 Python IDE 中 也 带 有 调试 
器 工具 。 设 计 者 认为 这 些 调试 工具 可 以 帮助 人 们 找到 程序 中 的 错误 , 它们 确实 有 帮助 , 但 说 实话 ， 
帮助 不 大 。 更 重要 的 是 如 何 接近 问题 。 很 多 经 验 丰富 的 程序 员 甚 至 根本 不 用 调试 工具 。 多 数 程序 
员 认为 最 重要 的 调试 工具 是 print 语 句 。 

当 测试 发 现 程序 运行 不 正常 时 ,就 应 该 进行 程序 调试 。 调 试 就 是 搜索 程序 异常 行为 原因 的 过 
程 。 保 持 良好 调试 能 力 的 关键 就 是 系统 化 地 执行 这 个 搜索 过 程 。 

调试 从 研究 现 有 数据 开始 ,这 些 数据 包括 测试 结果 和 程序 文本 。 要 研究 所 有 测试 结果 , 不 但 
要 检查 那些 发 现 问题 的 测试 , 还 要 检查 那些 没有 发 现 问题 的 测试 。 尽 量 弄 清楚 为 什么 这 个 测试 通 
过 了 而 男 一 个 测试 没有 通过 ,这 经 常会 给 你 一 些 启发 。 查 看 程序 文本 时 , 请 记 住 你 不 需要 完全 理 
解 它 。 如 果 完 全 理解 了 程序 ， 就 不 会 有 错误 发 生 了 。 

然后 ， 建 立 一 个 符合 所 有 现 有 数据 的 假设 。 这 个 假设 可 以 非常 具体 ， 比 如 “如 果 我 将 第 403 
行 代 码 从 x < y 修 改 成 x <= y， 那 么 问题 就 会 解决 "; 这 个 假设 也 可 以 非常 宽泛 ， 比 如 “程序 不 
会 结束 的 原因 是 某 些 while 循 环 中 的 跳出 条 件 出 现 了 错误 ”。 

接 下 来 ， 设 计 并 运行 一 个 能 够 推翻 上 述 假设 的 可 重复 实验 。 例 如 ， 你 可 以 在 每 个 while 循 环 
的 前 面 和 后 面 都 加 上 一 个 print 语 句 。 如 果 这 些 语 句 完 全 匹配 成 对 ， 那 么 因为 某 个 while 循 环 出 
错 导 致 程序 无 法 终止 的 假设 就 被 推翻 了 。 运 行 实验 之 前 , 你 就 应 该 明确 如 何 解释 每 种 可 能 的 结果 。 
如 果 直 到 实验 结束 才 对 结果 进行 解释 ， 就 很 可 能 陷 人 “事后 诸葛 亮 ”的 黎 众 境地 。 

最 后 ,要 将 你 的 实验 过 程 记录 下 来 , 这 一 点 非常 重要 。 当 你 花费 数 小 时 修改 代码 ， 并 努力 追 
踪 那 些 难以 捉摸 的 错误 的 时 候 , 非常 容易 忘掉 你 已 经 做 了 什么 。 如 果 不 仔细 记录 , 非常 容易 浪费 
大 量 时 间 , 一 遍 又 一 遍地 重复 同样 的 实验 ( 更 可 能 的 是 , 那些 看 上 去 不 同 但 会 向 你 传达 同样 信息 
的 实验 )。 请 记 住 ， 就 像 很 多 人 说 过 的 , “非常 思春 的 人 会 一 遍 又 一 遍地 重复 同样 的 事情 ， 却 期 待 
不 同 的 结果 。 ” 






























































































































































6.2.2 ”设计 实验 


如 果 将 调试 看 作 一 个 搜索 过 程 , 那么 每 次 实验 就 要 尽力 缩减 搜索 空间 。 缩减 搜索 空间 的 一 种 
方法 是 , 设计 一 个 实验 , 确定 代码 的 一 个 具体 区 域 是 否 是 造成 某 个 问题 的 原因 ， 这 个 问题 是 在 集 
成 测试 中 被 发 现 的 。 男 外 一 种 缩减 搜索 空间 的 方法 是 ,减少 导致 错误 出 现 所 需 的 测试 数据 量 。 

我 们 故意 设计 了 一 个 例子 ， 来 演示 如 何 进行 调试 。 假 设 你 编写 了 图 6-3 中 的 回 文 检测 代码 。 
































@ 这 名 话 出 自 丽 塔 ' 梅 ' 布朗 的 Sudden Dea 矿 。 然 而 ， 显 然 很 多 人 都 说 过 类 似 的 话 ， 包 括 阿 尔 伯 特 ' 爱 因 斯 坦 。 
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def isPal(x) : 
"" "假设 X 是 列表 
如 果 列 表 是 回 文 ， 则 返回 True， 否 则 返回 False""" 

temp = x 
temp.reverse 
if temp == X: 

return True 
else: 

return False 


def silly(n): 
""" 假 设 n 是 正 整 数 
接受 用 户 的 n 个 输入 
如 果 所 有 输入 组 成 一 个 列表 ， 则 返回 "Yes' 
否则 返回 'No' 
for i in range(n): 
result = [] 
elem = input('Enter element: ') 
result.append(elem) 
if ispal(result): 
print "Yes 
else: 
print “No 























图 6-3” 带 有 bug 的 程序 


假设 你 对 自己 的 编程 技能 非常 自信 ,所 以 未 经 测试 就 将 这 段 代码 发 布 到 互联 网 上 。 很 快 你 将 
收 到 一 封 信 :“ 我 用 以 下 1000 个 字符 串 作 为 输入 测试 了 你 的 这 个 〈 哗 一 一 ) 程序 ， 每 次 它 都 输出 
Yes， 就 算 一 个 傻瓜 都 能 看 出 这 不 是 回 文 ， 赶快 修 改 一 下 吧 !1” 

你 可 以 使 用 邮件 中 提供 的 1000 个 字符 串 作 为 输入 进行 测试 , 但 更 明智 的 做 法 是 先 从 更 简单 一 
些 的 输入 开始 。 实 际 上 ， 应 该 先 使 用 一 个 最 短 的 非 回 文字 符 串 来 测试 ， 如 : 

>>> silly(2) 


Enter element: a 
Enter element: b 


好 消息 是 , 程序 连 这 个 最 简单 的 测试 也 没有 通过 ,所 以 你 不 用 输入 那 1000 个 字符 串 了 。 坏 消 
息 是 ， 你 根本 不 知道 哪里 出 错 。 

对 于 这 个 例子 ,代码 非常 少 ,所 以 你 可 以 一 直上 采 着 它 看 ， 直 到 找 出 那个 错误 (或 那些 错误 )。 
但 是 ， 假 设 这 个 程序 非常 大 ， 不 能 使 用 上 面 的 方法 ， 那 下 面 就 来 系统 地 缩减 搜索 空间 。 

一 般 来 说 , 最 好 的 方法 是 执行 二 分 查找 。 先 找 出 代码 中 间 点 ,然后 设计 一 个 实验 , 确定 是 否 
因为 中 间 点 前 面 存 在 问题 才 导致 程序 出 现 这 种 症状 。( 当然 ， 中 间 点 后 面 也 可 能 存在 问题 ， 但 最 
好 一 次 只 解决 一 个 问题 。) 中 间 点 最 好 选 在 能 够 提供 某 些 中 间 值 的 地 方 ， 这 些 中 间 值 应 该 既 易 于 
检查 ， 又 能 提供 有 价值 的 信息 。 如 果 某 个 中 间 值 与 你 的 预期 不 符 , 那么 中 间 点 之 前 就 很 可 能 存在 
问题 。 如 果 中 间 值 都 没有 问题 ,那么 错误 就 可 能 在 代码 后 半 部 分 的 某 个 地 方 。 可 以 一 直 重 复 这 个 
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过 程 ， 直 到 将 存在 问题 的 区 域 缩减 到 几 行 代码 。 

我 们 看 一 下 silly 函 数 ， 它 的 中 间 点 大 致 在 if isPal(result) 这 行 附近 。 很 明显 ， 我 们 需要 
检查 result 的 值 是 否 是 ['a'，'b']。 我 们 在 silly 函 数 中 的 if 语句 前 面 插入 print(result) 来 检 
查 result 的 值 。 这 个 实验 运行 的 结果 是 程序 输出 了 ['b'] ， 这 说 明 已 经 出 现 了 错误 。 下 一 步 是 在 
循环 的 中 间 点 输出 result， 这 次 很 快 发 现 ，result 中 的 元 素 从 来 不 会 多 于 1 个 ， 这 说 明 对 result 
的 初始 化 应 该 移 到 for 循 环 的 外 面 。 

“正确 的 ”silly 函 数 代 码 应 该 是 : 

def silly(n): 

"" "假设 n 是 正 整数 
接受 用 户 的 n 个 输入 
如 果 所 有 输入 组 成 了 一 个 回 文 列 表 ， 则 返回 "Yes' 
否则 返回 "No' 
result = [] 
for i in range(n): 
elem = input('Enter element: ') 
result.append(elem) 
print (result) 
if ispal(result): 
print ('Yes') 
else: 
print ('No') 

我 们 试 一 下 这 段 代码 ， 看 看 在 for 循 环 之 后 result 取 值 是 否 正 确 。 没 有 问题 ， 但 不 幸 的 是 ， 
程序 仍然 输出 Yes。 于 是 ， 我 们 有 理由 相信 print 语 句 后面 还 有 第 二 个 错误 。 所 以 ， 我 们 再 看 一 
下 isPal 函 数 。 代 码 if temp == x: 看 上 去 是 这 个 函数 的 中 心 点 ， 所 以 我 们 在 这 行 代码 前 面 插入 : 

print(temp, x) 
运行 代码 时 ， 我 们 看 到 temp 的 值 与 预期 一 致 ， 但 x 则 不 然 。 先 看 isPal 函 数 的 前 半 部 分 ， 我 们 在 
temp = x 这 行 代码 后 面 插 入 一 条 print 语 句 ， 发 现 temp 和 x 的 值 都 是 ['a' ，'b']。 快 速 检 查 代 码 ， 
发 现在 isPal 函 数 中 ， 我 们 将 temp .reverse() 错 误 地 写成 了 temp.reverse， 后 者 会 返回 一 个 内 
置 的 列表 reverse 方 法 ， 但 不 调用 它 。” 

我 们 再 运行 一 下 测试 ， 这 次 发 现 temp 和 x 的 值 都 是 ['b'，'a']。 现 在 可 以 将 错误 限定 在 一 行 
代码 上 了 。 看 上 去 , temp.reverse() 意 外 地 改变 了 x 的 值 。 就 是 这 个 别名 错误 将 我 们 害 惨 了 : temp 
和 x 是 同一 个 列表 的 两 个 名 称 , 在 列表 翻转 前 后 都 是 这 样 。 修 复 这 个 错误 的 一 种 方法 是 使 用 temp = 
x[:] 替 换 ispal 中 的 第 一 个 赋值 语句 ， 新 代码 可 以 为 x 制作 一 个 副本 。 

isPal 函 数 的 正确 代码 是 : 

def ispal(x): 

"" "假设 X 是 列表 
如 果 列 表 是 回 文 ， 则 返回 True， 否 则 返回 False""" 


temp = x[:] 
temp.reverse() 































































































@ 你 可 能 会 想 ， 如 果 有 一 个 静态 检查 器 就 可 以 发 现 ，temp.reverse 并 没有 执行 任何 计算 ， 所 以 很 有 可 能 是 个 错误 。 
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if temp == X: 
return True 
else: 
return False 


6.2.3 ” 遇 到 麻烦 时 


据说 ,肯尼迪 总 统 的 父亲 约瑟夫 : P. 肯尼迪 曾经 这 样 教导 他 的 孩子 们 :“ 艰 难 之 路 ， 唯 勇者 
行 ”“ 然 而 他 从 来 没有 调试 过 一 段 代码 。 调试 遇 到 困难 时 ,我们 该 怎么 做 呢 ?” 以 下 给 出 了 几 条 实 
用 的 提示 。 
口 排除 常见 错误 。 例 如 ， 看 看 你 是 否 犯 了 以 下 错误 : 
@ 以 错误 的 顺序 向 函数 传递 实 参 ; 
昌 拼 错 一 个 名 称 ， 如 将 大 写字 母 写成 小 写 ; 
@ 变量 重新 初始 化 失败 ; 
和 检验 两 个 浮 点 数 是 否 相 等 ( == )， 而 不 是 近似 相等 〈 请 记 住 ， 浮 点 数 的 运算 与 学 校 里 学 
的 运算 不 一 样 ); 
a 在 应 该 检验 对 象 相等 ( 如 id(L1) == id(L2) ) 的 时 候 ， 检 验 值 相等 ( 例如 ， 使 用 表达 
式 L1 == L2 比 较 两 个 列表 ); 
和 店 记 了 一 些 内置 隐 数 具 有 副作用 ; 
和 忘记 使 用 () 将 对 function 类 型 对 象 的 引用 转换 为 函数 调用 ; 
和 意外 地 创建 了 一 个 别名 ; 
和 其 他 一 些 你 常 犯 的 错误 。 

口 不 要 问 自 己 为 什么 程序 没有 按照 你 的 想法 去 做 ， 而 要 问 自己 程序 为 什么 像 现 在 这 样 做 。 

后 者 应 该 更 容易 回答 ， 要 想 弄 清楚 如 何 修复 程序 ， 这 可 能 是 一 个 很 好 的 开始 。 

口 记 住 ， 错 误 可 能 不 在 你 认为 会 出 错 的 地 方 。 如 果 在 那里 ， 你 早 就 应 该 发 现 它 了 。 确 定 错 
误 位 置 的 一 种 实用 方法 是 ， 看 看 那些 你 认为 不 会 出 错 的 地 方 。 就 像 夏 洛克 福尔摩斯 所 
说 :“ 排 除 所 有 其 他 因素 ， 最 后 剩 下 来 的 一 定 就 是 真相 。 ” 

口 试 着 向 其 他 人 解释 程序 的 问题 。 每 个 人 都 会 有 育 点 。 经 常 有 这 样 的 情况 ， 试 图 向 别人 解 
释 问 题 的 时 候 ， 你 会 突然 发 现 自己 忽略 的 地 方 。 向 其 他 人 解释 为 什么 程序 中 某 个 地 方 不 
会 出 现 错误 是 个 很 好 的 选择 。 

口 不 要 盲目 相信 任何 书面 上 的 东西 。 特 别 是 ,不 要 相信 文档 。 代 码 行为 可 能 与 注释 不 一 样 。 

口 暂停 调试 ， 开 始 编写 文档 。 这 会 帮助 你 从 不 同 视角 接近 问题 所 在 。 

口 出 去 散 散步 ， 明 天 接着 做 。 这 可 能 意味 着 与 你 坚持 工作 相 比 ， 修 复 问 题 的 时 间 要 晚 一 些 ， 
但 花费 的 总 时 间 会 大 大 减少 。 也 就 是 说 ， 我 们 使 用 时 间 上 的 一 点 延迟 换取 了 效率 上 的 大 

幅 提 升 。( 同学 们 ， 开 始 习 题 集 中 的 编程 练习 吧 ， 宁 早 勿 晚 ， 这 是 个 绝 好 的 理由 ! ) 





























































































































@ 他 还 告诉 肯尼迪 :“ 不 要 收买 哪怕 一 张 选票 ， 我 绝 不 会 为 注定 的 胜利 而 买单 。” 
@) 阿 瑟 . 柯南 道 尔 ,《 四 签名 六 
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6.2.4 找到 “目标 ”错误 之 后 


当 你 认为 找到 代码 中 的 错误 时 , 很 可 能 要 立刻 开始 编写 并 测试 一 个 修复 程序 , 这 种 诱惑 通常 
难以 抑制 。 但 你 这 时 最 好 冷静 一 下 。 请 记 住 , 我 们 的 目标 不 是 修复 一 个 错误 ,而 是 快速 有 效 地 得 
到 一 个 没有 错误 的 程序 。 

你 应 该 拉 心 自问 ， 这 个 错误 能 够 解释 所 有 观测 到 的 症状 ， 还 是 只 是 冰山 一 角 。 如 果 是 后 者 ， 
最 好 将 对 这 个 错误 的 处 理 与 其 他 修改 结合 考虑 。 举例 来 说 , 假设 你 发 现 错误 是 因为 意外 修改 列表 
导致 的 , 那么 可 以 复制 列表 ， 先 在 本 地 绕 开 这 个 错误 ; 也 可 以 考虑 使 用 一 个 元 组 代替 列表 ( 因为 
元 组 是 不 可 变 的 )， 这 样 可 能 消除 代码 其 他 部 分 中 的 类 似 错误 。 

做 出 任何 修改 之 前 , 一 定 要 想 清楚 提交 “修复 ”的 后 果 。 它 会 破坏 其 他 程序 吗 ? 它 会 使 程序 
过 度 复 杂 吗 ? 它 会 使 我 们 有 机 会 优化 其 他 部 分 的 代码 吗 ? 

请 一 定 确保 你 可 以 回 到 修复 前 的 状态 。 如 果 经 过 一 系列 长 长 的 修改 之 后 你 才 发 现 , 离 最 初 设 
定 的 目标 越 来 越 远 ,而且 已 经 没有 机 会 回 到 原点 ,那么 没什么 事情 比 这 更 令 人 诅 示 了。 磁盘 空间 
一 般 足 够 大 ， 请 一 定 注 意 保存 程序 修改 前 的 版 本 。 

最 后 ,如 果 还 存在 很 多 无 法 解释 的 错误 , 那么 你 应 该 反思 , 这 种 按部就班 查找 并 修复 错误 是 
否 正确 。 你 最 好 考虑 一 下 ,是 否 有 更 好 的 方法 来 组 织 程序 , 或 者 有 更 简单 的 、 更 容易 正确 实现 的 
算法 。 
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“异常 ”通常 被 定义 为 “不 符合 规范 的 东西 "， 因 此 有 些 罕见 。 但 在 Python 中 ,异常 十 分 常见 ， 
简直 到 处 都 是 。 实 际 上 ， 标 准 Python 库 中 的 所 有 模块 都 使 用 异常 ，Python 本 身 在 很 多 不 同 的 环境 
中 也 会 抛 出 异常 。 你 肯定 已 经 见 到 过 一 些 异 常 了 。 

打开 一 个 Python shell 并 输入 : 


test = [1,2,3] 
test[3] 


解释 器 会 给 出 如 下 回应 : 

IndexError: list index out of range 

IndexError 是 程序 试图 访问 一 个 位 于 可 索引 类 型 边界 之 外 的 元 素 时 , 由 Python 抛 出 的 异常 类 
型 。IndexError 后 面 的 字符 串 提 供 了 一 些 附加 信息 ， 说 明了 引发 异常 的 原因 。 

Python 语 言 中 内 置 的 多 数 异常 都 用 来 处 理 这 样 一 种 情况 ， 即 程序 试图 使 用 不 恰当 的 语义 结构 
执行 语句 。( 在 本 章 后 面 的 内 容 中 , 我 们 也 会 使 用 一 些 特殊 的 异常 一 一 它们 不 处 理 程序 错误 。) 那 
些 努 力 编写 并 运行 Python 程序 的 读者 们 (我 们 希望 是 所 有 读者 ) 应 该 已 经 遇 到 了 很 多 异常 ， 最 常 


见 的 异常 类 型 是 TypeError 、IndexError 、NameError 和 ValueError。 


7.1 处 理 异 常 


直到 现在 , 我 们 还 是 将 异常 当 作 致 命 错误 进行 处 理 。 发 生 异常 时 ,程序 就 终止 ( 在 这 种 情况 
下 ,“ 骨 溃 ” 应 该 是 一 个 更 恰当 的 词语 )， 然后 我 们 回 到 代码 ,试图 弄 清 为 什么 会 出 错 。 程序 因为 
一 个 异常 被 抛 出 而 终止 时 ， 我 们 称 抛 出 了 一 个 未 处 理 异 常 。 

异常 没有 必要 导致 程序 终止 。 异 常 在 被 抛 出 时 ,可 以 也 应 该 由 程序 进行 处 理 。 有 时 候 抛 出 异 
常 的 原因 是 程序 中 有 错误 〈 比如 访问 一 个 不 存在 的 变量 )， 但 很 多 时 候 ， 异 常 是 程序 员 可 以 也 应 
该 预料 到 的 事情 。 程 序 会 试图 打开 一 个 不 存在 的 文件 。 如 果 交 互 式 程序 要 求 用 户 输入 信息 , 那么 
用 户 可 能 会 输入 一 些 不 合适 的 内 容 。 

如 果 知 道 了 一 行 代 码 在 运行 时 可 能 引发 异常 ,那么 你 应 该 处 理 异 常 。 在 一 个 优秀 程序 中 , 未 
处 理 异 常 才 是 真正 的 异常 。 

我 们 看 一 下 这 段 代 码 : 




















































































































successFailureRatio = numSuccesses/numFailures 
print('The success/failure ratio is', successFailureRatio) 
print('Now here') 


多 数 情 况 下 ， 这 段 代 码 运 行 良好 ， 但 如 果 numFailures 磁 巧 是 9， 那 么 试图 除 以 0 就 会 使 Python 运 
行 时 系统 抛 出 一 个 ZeroDivisionError 异 常 ， 程 序 也 根本 执行 不 到 print 语 句 。 
最 好 按照 以 下 方式 改写 这 段 程序 : 
try : 
successFailureRatio = numSuccesses/numFailures 
print('The success/failure ratio is', successFailureRatio) 
except ZeroDivisionError: 


print('No failures, so the success/failure ratio is undefined.') 
print('Now here') 


进入 try 代 码 块 时 , 解释 器 试图 对 表达 式 numSsuccesses/numFailures 进 行 求 值 。 如 果 表达 式 
求 值 成 功 ， 程 序 就 将 这 个 表达 式 的 值 赋 给 变量 successFailureRatio， 执 行 try 代 码 块 末尾 的 
print 语 句 ， 然 后 前 进 到 try-except 结 构 后 面 的 print 语 句 。 但 是 ， 如 果 表 达 式 求 值 过 程 中 抛 出 
ZeroDivisionError 异 常 , 控制 流 就 立刻 跳 到 except 代 码 块 ( 跳 过 try 代 码 块 中 的 赋值 语句 和 print 
语句 )， 执 行 except 代 码 块 中 的 print 语 句 ， 然 后 继续 执行 try-except 代 码 块 后 面 的 print 语 句 。 


实际 练习 : 实现 一 个 满足 以 下 规范 的 函数 。 请 使 用 try-except 代 码 块 。 


def sumDigits(s): 
""" 假 设 s 是 一 个 字符 囊 
返回 s 中 十 进 制 数字 之 和 
例如 ， 如 果 s 是 'a2b3c'， 则 返回 5""" 


我 们 再 看 为 一 个 例子 ， 考 虑 以 下 代码 : 


val = int(input('Enter an integer: ')) 
print('The square of the number you entered is', val**2) 
如 果 用 户 善 解 人 意 地 输入 了 一 个 可 以 转换 为 整数 的 字符 串 , 那么 万 事 大 吉 。 但 是 ， 如果 用 户 输 入 
了 abc 呢 ? 执行 这 行 代码 会 使 Python 运行 时 系统 抛 出 一 个 valueError 异 常 ，print 语 名 也 根本 不 
会 执行 。 
程序 员 应 该 按照 下 面 的 方式 写 这 段 代码 : 
while True: 

val = input('Enter an integer: 
try: 

val = int(val) 

print('The square of the number you entered is', val**2) 
break # 跳 出 while 御 环 

except ValueError: 
print(val, "is not an integer') 

进入 循环 之 后 , 程序 会 要 求 用 户 输入 一 个 整数 。 一 旦 用 户 完成 输入 , 程序 就 执行 try-except 
代码 块 。 如 果 try 代 码 块 中 的 前 两 行 语句 都 没有 引发 valueError 异 常 ， 那 么 就 执行 break 语 句 ， 
跳出 while 循 环 。 但 是 , 如果 执 行 try 代 码 块 时 抛 出 ValueError 异 常 , 控制 流 就 立刻 转移 到 except 
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代码 块 。 因 此 ， 如 果 用 户 输入 了 一 个 不 能 转换 为 整数 的 字符 串 ， 程 序 就 会 要 求 用 户 重 新 输入 。 这 
样 ， 不 论 用 户 输入 什么 内 容 ， 都 不 会 引发 一 个 未 处 理 异 常 。 

这 个 修改 的 负面 影响 是 ,程序 代码 从 2 行 变 成 了 8 行 。 如 果 有 很 多 地 方 要 求 用 户 输入 整数 , 那 
就 比较 成 问题 了 。 当 然 ， 这 个 问题 可 以 通过 引入 一 个 函数 得 到 解决 : 


def readInt(): 
while True : 
val = input('Enter an integer: ') 
try: 
return(int(val)) # 返 回 前 将 str 转 换 为 Int 
except ValueError : 
print(val, 'is not an integer') 


更 棒 的 是 ， 这 个 函数 可 以 扩展 为 接受 任意 类 型 的 输入 : 


def readVal(valType, requestMsg, errorMsg): 
while True: 
val = input(requestMsg + ' ') 
try: 
return(valType(val)) # 返 回 前 将 str 转 换 为 valType 
except ValueError: 
print(val, errorMsg) 








readVal(int, 'Enter an integer:', "is not an integer') 

函数 readval 是 多 态 的 ， 也 就 是 说 ， 它 可 以 兼容 各 种 类 型 的 参数 。 这 种 函数 在 Python 中 很 容 
易 编 写 ， 因 为 类 型 是 一 等 对 象 。 现 在 我 们 可 以 使 用 以 下 代码 要 求 用 户 输入 整数 : 

val = readVal(int, "Enter an integer:', 'is not an integer ) 

异常 看 上 去 不 太 友 好 ( 毕竟， 如 果 不 处 理 ， 异 常会 使 程序 崩溃 )， 但 总 好 于 其 他 处 理 方式 。 
试想 ， 如 果 要 将 字符 串 'abc' 转 换 成 一 个 int 类 型 的 对 象 ， 类 型 转换 函数 int 该 如 何 是 好 ? 它 可 以 
返回 一 个 对 应 于 该 字符 串 编码 的 整数 , 但 这 样 与 程序 员 的 初衷 相悖 。 或 者 ， 它 可 以 返回 一 个 特殊 
值 None。 这 样 ， 程 序 员 还 需要 插 人 一 些 代码 检查 类 型 转换 是 否 返回 None。 如 果 忘 记 检查 ， 他 就 
要 承担 程序 出 现 一 些 奇怪 错误 的 风险 。 
使 用 异常 时 , 程序 员 仍 然 需 要 编写 一 些 代码 处 理 特定 异常 。 如 果 忘 记 处 理 某 个 异常 ， 那么 这 
个 异常 就 被 抛 出 ,程序 也 随 之 立刻 停止 。 这 是 件 好 事 ， 它 可 以 警告 用 户 ， 让 他 们 知道 程序 出 现 了 
一 些 问 题 。( 正如 我 们 在 第 6 章 讨论 过 的 ， 显 性 错误 要 远 远 好 于 隐 性 错误 。) 而 且 ， 它 还 会 明确 告 
知 程序 调试 者 哪里 发 生 了 错误 。 

如 果 一 段 程序 代码 中 可 能 引发 的 异常 类 型 不 止 一 种 ,那么 保留 字 except 后 面 可 以 接 一 个 异常 
元 组 ， 如 下 所 示 : 

except (ValueError, TypeError): 
这 种 情况 下 ， 如 果 try 代 码 块 中 引发 了 任何 一 种 异常 ， 都 会 进入 except 代 码 块 。 

或 者 , 我 们 可 以 为 每 种 异常 编写 一 个 单独 的 except 代 码 块 , 这 样 可 以 使 程序 根据 抛 出 的 异常 
选择 相应 操作 。 如 果 代 码 是 这 样 的 : 
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except: 


那么 , 如 果 try 代 码 块 中 抛 出 任何 一 种 异常 , 程序 都 会 进入 except 代 码 块 。 图 7-1 展 示 了 这 些 特性 








def getRatios(vect1, vect2): 
"" "假设 vect1 和 vect2 是 长 度 相 同 的 数值 型 列表 
返回 一 个 包含 vect1[i]/vect2[i] 中 有 意义 的 值 的 列表 """ 


ratios = [] 


for index in range(len(vect1)): 
try: 
ratios.append(vect1[index]/vect2[index]) 
except ZeroDivisionError: 
= 不 是 一 个 数 


ratios.append(float('nan')) #nan 





except: 
raise ValueError('getRatios called with bad arguments') 


return ratios 











图 7-1 使 用 异常 作为 控制 流 

















7.2 将 异常 用 作 控 制 流 
异常 看 作 错 误 ， 它 还 是 一 种 方便 的 控制 流 机 制 ， 可 以 使 程序 更 加 简洁 。 
函数 返回 一 个 特定 值 ( 与 Python 中 的 None 很 相 





























不 要 只 把 
在 很 多 编程 语言 中 ,处 理 错误 的 标准 方法 是 但 
似 ) 来 表示 出 现 错误 。 每 次 函数 调用 都 必须 检查 返回 值 是 否 是 这 个 特定 值 。 在 Python 中 ， 更 常见 
的 做 法 是 ， 当 函数 不 能 返回 一 个 符合 规格 说 明 的 结果 时 ， 就 抛 出 一 个 异常 。 
Python 语言 中 的 raise 语 句 可 以 强制 引发 一 个 特定 的 异常 。raise 语 名 的 形式 如 下 : 
































raise exceptionName(arguments) 


其 中 exceptionName 通 常 是 一 种 内 置 的 异常 ， 如 ValueError。 当 然 ， 程序 员 可 以 通过 为 内 置 的 
Exception 类 创建 一 个 子 类 ,来 定义 一 个 新 的 异常 。 不 同类 型 的 异常 可 以 有 不 同类 型 的 参数 ， 但 


大 多 数 时 候 参 数 都 是 一 个 字符 串 ， 用 来 描述 引发 异常 的 原因 。 


实际 练习 : 实现 一 个 满足 以 下 规范 的 函数 。 



































def findAnEven(L) : 
mn "假设 L 是 一 个 整数 列表 


返回 L 中 的 第 一 个 偶数 
如 果 L 中 没有 偶数 ， 则 抛 出 ValueError 蜡 常 """ 


返回 去 看 一 下 图 7-1 中 的 函数 定义 。 
对 应 try 代 码 块 的 有 两 个 except 代 码 块 。 如 果 在 try 代 码 块 中 抛 出 异常 , 那么 Python 先 检查 这 
如 果 是 ， 就 将 一 个 float 类 型 的 特殊 值 nan 追 加 到 ratios 中 。 


个 异常 是 不 是 zeroDivisionError。 


a 
(nan 表示 “不 是 一 个 数 ”, 没有 对 应 它 的 字面 量 , 但 可 以 通过 将 字符 串 'nan' 或 'NaN' 转 换 为 float 


类 型 来 表示 。 当 nan 在 一 个 float 类 型 的 表达 式 中 用 作 操 作 数 时 ， 这 个 表达 式 的 值 也 是 nan。) 如 
人 except 代码 块 , 抛 出 一 个 带 有 相应 字符 
























































果 异 常 不 是 ZeroDivisionError, 那么 代码 就 执行 第 二 
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串 的 ValueError 异 常 。 

理论 上 ， 第 二 个 except 代 码 块 永远 不 会 被 执行 ， 因 为 代码 调用 getRatios 时 应 该 遵守 函数 规 

范 中 的 假设 。 但 是 ,检查 是 否 遵守 了 这 些 假设 只 能 增加 一 些 计算 负担 ,没有 什么 实际 意义 ， 所 以 

还 不 如 使 用 异常 进行 防御 性 编程 和 检查 。 
以 下 代码 演示 了 程序 使 用 getRatios 函 数 的 方法 。except ValueError as msg: 这 行 代码 中 


的 名 称 msg 绑 定 了 抛 出 ValueError 时 使 用 的 参数 (一 个 字符 串 )。 "执行 以 下 代码 ; 


try : 





















































print(getRatios([1.6,2.0,7.0,6.6]，[1.6,2.9,06.6,3.9])) 

print(getRatios([], [])) 

print(getRatios([1.6，2.6]，[3.6])) 
except ValueError as msg: 

print(msg) 


会 输出 : 


[1.6，1.6，nan，2.6] 
[] 


getRatios called with bad arguments 


图 7-2 中 给 出 的 是 对 同样 规范 的 另 一 种 实现 ， 没 有 使 用 try-except。 











def getRatios(vect1, vect2): 
"" "假设 vect1 和 Vect2 是 长 度 相 同 的 数值 型 列表 
返回 一 个 包含 vect1[i]/vect2[i] 中 有 意义 的 值 的 列表 """ 
ratios = [] 
if len(vect1) != len(vect2) : 
raise ValueError('getRatios called with bad arguments ' ) 
for index in range(len(vect1)): 
vect1iElem = vect1[index] 
vect2Elem = vect2[index] 
if (type(vectiElem) not in (int, float))\ 
or (type(vect2Elem) not in (int, float)): 
raise ValueError('getRatios called with bad arguments') 
if vect2Elem == 6.6: 
ratios.append(float('NaN')) #NaN = 不 是 一 个 数 
else: 
ratios.append(vect1lElem/vect2Elem) 
return ratios 


























图 7-2 不 使 用 try-except 的 控制 流 


和 图 7-1 中 的 代码 相 比 ， 图 7-2 的 代码 更 长 ， 更 难以 阅读 ， 效 率 也 更 差 。( 图 7-2 的 代码 中 ， 如 
果 去 掉 局 部 变量 vect1Elem 和 vect2Elem， 代 码 会 稍 短 一 些 ， 但 付出 的 代价 是 效率 更 差 ， 因 为 要 
反复 地 对 列表 进行 索引 。 ) 

我 们 再 看 一 个 例子 ， 如 图 7-3 所 示 。 哨 数 getGrades 或 者 返回 一 个 值 , 或 者 抛 出 一 个 带 有 参数 














@ 在 Python 2 中 ， 这 行 代码 写 为 except ValueError，msg， 而 不 是 except ValueError as msg。 








82 





值 的 异常 。 如 果 对 open 函 数 的 调用 引发 了 一 个 IOError， 那 么 getGrades 就 抛 出 一 个 ValueError 


异常 。 它 本 可 以 忽略 IOError， 让 调用 getGrades 的 那 部 分 代码 去 处 理 这 个 异常 ， 
息 判 断 出 错位 置 。 调 用 getGrades 的 代码 或 者 使 用 返回 值 计算 
出 男 一 个 值 ， 或 者 处 理 异常 并 打印 出 带 有 出 错 原 因 的 错误 信息 。 








用 代码 在 出 现 问题 时 没有 足够 的 信 ， 





但 这 样 会 使 调 








def getGrades(fname): 
try: 
gradesFile = 
except IOError: 


open(fname, 


grades = [] 
for line in gradesFile: 
try: 
grades.append(float(line)) 
except: 


return grades 





'r') #open file for reading 


raise ValueError('getGrades could not open 


raise ValueError('Unable to convert line to float') 


"+ fname) 








try: 

grades = getGrades('quizigrades.txt') 

grades.sort() 

median = grades[len(grades)//2] 

print ('Median grade is', median) 
except ValueError as errorMsg: 

print ('Whoops.', errorMsg) 

图 7-3 ”计算 评分 





7.3 断言 








Python 语言 中 的 assert 语 句 为 程序 员 提 供 了 一 种 确保 程序 状态 符合 预 


语句 可 以 有 以 下 两 种 形式 : 
assert BoolLean expression 
或 者 : 


assert BoolLean expression, argument 











期 的 简单 方法 。assert 








执行 assert 语 句 时 ， 先 对 布尔 表达 式 求 值 。 如 果 值 为 True， 程 序 就 愉快 地 继续 向 下 执行 ; 


如 果 值 为 False， 就 抛 出 一 个 AssersionError 异 常 。 








断言 是 一 种 非常 有 用 的 防御 性 编程 工具 ,可 以 用 来 确保 函数 参数 具有 恰当 的 类 型 。 
期 ， 或 者 确保 函数 返回 一 个 可 接受 的 值 。 



































是 一 种 非常 有 用 的 调试 工具 ， 可 以 确保 中 间 值 符合 预 


它 同时 也 
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类 与 面向 对 象 编程 











现在 ,我 们 将 注意 力 转 到 与 Python 编程 相关 的 最 后 一 个 主要 话题 : 使 用 类 围绕 模块 和 数据 抽 
象 来 组 织 程序 。 

类 的 应 用 非常 广泛 , 在 本 书 中 , 重点 是 在 面向 对 象 编 程 的 环境 下 使 用 类 。 面 向 对 象 编程 的 关 
键 是 将 对 象 看 作 数据 和 可 以 在 数据 上 执行 的 方法 的 集合 。 

面向 对 象 编程 的 基本 思想 早 在 40 年 前 就 产生 了 , 并 在 过 去 的 大 约 25 年 中 被 人 们 广泛 接受 并 实 
践 。20 志 纪 70 年 代 中 期 ， 人 们 开始 撰写 文章 来 介绍 这 种 编程 方法 的 优点 。 大 概 在 同一 时 间 ， 编程 
语言 SmallTalk ( 施乐 研究 中 心 ) 和 CLU ( 麻 省 理工 学 院 ) 为 这 种 思想 提供 了 语言 上 的 支持 。 但 
C++ 和 Java 的 出 现 才 真正 使 这 种 思想 成 为 现实 。 

在 本 书 的 大 部 分 内 容 中 ， 我 们 都 在 隐 含 地 使 用 面向 对 象 编程 。 回 到 2.1.1 节 ， 我 们 说 过 :“ 对 
象 是 Python 程序 处 理 的 核心 元 素 。 每 个 对 象 都 有 类 型 ， 定 义 了 程序 能 够 在 这 个 对 象 上 执行 的 操 
作 。” 从 第 2 章 开始 ， 我 们 就 开始 放心 地 使 用 像 1ist 和 dict 这 样 的 内 置 类 型 ， 以 及 与 这 些 类 型 相 
关 的 方法 。 但 是 , 正如 设计 者 只 能 在 编程 语言 中 内 置 一 小 部 分 有 用 的 函数 一 样 , 他们 也 只 能 内 置 
一 小 部 分 有 用 的 类 型 。 我 们 已 经 介绍 了 程序 员 如 何 定 义 新 函数 ， 下 面 介绍 如 何 定义 新 类 型 。 


8.1 抽象 数据 类 型 与 类 


抽象 数据 类 型 的 概念 非常 简单 ， 抽 和 象 数据 类 型 是 一 个 由 对 象 以 及 对 象 上 的 操作 组 成 的 集合 ， 
对 象 和 操作 被 捆绑 为 一 个 整体 ,可 以 从 程序 的 一 个 部 分 传递 到 为 一 个 部 分 。 在 这 个 过 程 中 , 不 但 
可 以 使 用 对 象 的 数据 属性 ， 还 可 以 使 用 对 象 上 的 操作 ， 这 使 得 数据 处 理 更 加 容易 。 

这 些 操作 的 规范 定义 了 抽象 数据 类 型 和 程序 其 他 部 分 之 间 的 接口 。 接 口 定义 了 操作 的 行 
为 ， 即 它们 做 什么 , 但 没有 说 明 如 何 去 做 。 于 是 ， 接 口 建立 了 一 个 抽象 边界 ， 将 程序 的 其 他 部 
分 与 实现 类 型 抽象 的 数据 结构 、 算 法 和 代码 隔离 开 来 。 
编程 时 ， 要 使 程序 易于 修改 ， 以 控制 程序 复杂 度 。 有 两 种 非常 强大 的 编程 机 制 可 以 完成 这 个 任 
务 : 分 解 和 抽象 。 分 解 使 程序 具有 结构 ， 抽 象 则 隐藏 细节 。 抽 象 的 关键 是 隐藏 合适 的 细节 ， 这 就 是 
数据 抽象 的 根本 目标 。 我 们 可 以 为 某 个 领域 创建 专用 的 类 型 ， 以 使 抽象 更 方便 。 理 想 情况 下 ， 这 样 
的 类 型 可 以 捕获 程序 整个 生命 周期 中 与 之 相关 的 概念 。 如 果 在 编程 开始 阶段 就 设计 好 程序 中 的 类 型 ， 
使 它们 在 以 后 的 几 个 月 甚至 几 十 年 中 都 可 以 使 用 ， 那 么 在 软件 维护 方面 就 具有 了 极 大 的 优势。 
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我 们 在 本 书 中 使 用 抽象 数据 类 型 ( 虽然 没有 这 样 称 呼 它 )。 编 写 程序 时 ， 我 们 已 经 使 用 了 整 
数 、 列 表 、 浮 点 数 、 字 符 串 和 字典 ， 却 从 来 没有 想 过 这 些 类 型 是 如 何 实现 的 。 改 写 一 句 莫 里 哀 在 
《资产 阶级 绅士 》 中 的 话 :“Par ma foi, il y a plus de cent pages que nous avons utilisé ADTSs, sans que 
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nous le sachions.” 
在 Python 语言 中 , 我 们 使 用 类 实现 数据 抽象 。 图 8-1 给 出 了 一 个 类 定义 , 简单 地 实现 了 对 整数 
集合 的 抽象 ， 类 的 名 称 为 Intset。 











class IntSet(object): 
"""IntSet 是 一 个 整数 集合 """ 
# 关 于 实现 (不 是 抽象 ) 的 信息 
# 集 合 的 值 由 一 个 整数 数组 Self.vals 表 示 。 
# 集 合 中 的 每 个 整数 在 self.vals 中 只 出 现 一 次 。 


def _ init (self): 
"" "创建 一 个 室 的 整数 集合 """ 
self.vals = [] 


def insert(self, e): 
"0" 假 设 e 是 整数 ， 将 e 插 入 self"on 
if e not in self.vals: 
self.vals.append(e) 


def member(self, e): 
mu" 假设 e 是 整 关 
如 果 e 在 self 中 ， 则 返回 True， 否 则 返回 False""" 
return e in self.vals 


def remove(self, e): 
"" "假设 e 是 整数 ， 从 self 中 删除 e 
如 果 e 不 在 self 中 ， 则 抛 出 ValueError 异 常 """ 
try: 
self.vals.remove(e) 
except: 
raise ValueError(str(e) + ' not found') 


def getMembers(self): 
""" 返 回 一 个 包含 self 中 元 素 的 列表 
对 元 素 不 进行 排序 """ 
return self.vals[:] 


def _ str_(self): 
""" 返 回 一 个 表示 self 的 字符 囊 """ 
self.vals.sort() 
result = "" 
for e in self.vals: 
result = result + str(e) Fy 
return '{' + result[:-1] + '}' #-1 可 以 忽略 最 后 的 过 号 











图 8-1 Intset 类 








QD “上帝 啊 , 我 们 用 了 100 多 页 抽象 数据 类 型 了 ， 却 还 对 它 一 无 所 知 。 
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类 定义 会 创建 一 个 type 类 型 的 对 象 ， 并 将 这 个 类 的 对 象 与 一 组 instancemethod 类 型 的 对 象 
关联 起 来 。 例 如 ， 表 达 式 Intset.insert 表 示 Intset 类 定义 中 的 insert 方 法 ， 代 码 : 

print(type(IntSet), type(IntSet.insert)) 
会 输出 : 

<class 'type'> <class 'function'> 

请 注意 ， 类 定义 最 上 方 的 文档 字符 串 ( 位 于 两 个 """ 之 间 的 注释 ) 描述 的 是 这 个 类 提供 的 抽 
象 ， 而 不 是 关于 如 何 实现 这 个 类 的 信息 。 相 反 , 文档 字符 串 下 面 的 注释 包含 的 才 是 关于 具体 实现 
的 信息 , 这 种 信息 不 是 给 那些 想 要 使 用 这 个 抽象 的 程序 员 的 ， 而 是 提供 给 那些 可 能 会 修改 这 个 实 
现 或 者 建立 这 个 类 的 子 类 的 程序 员 (人 参见 8.2 节 )。 

类 定义 中 存在 一 个 函数 定义 时 , 被 定义 的 函数 称 为 方法 ,并 与 这 个 类 相关 联 。 这 些 方法 有 时 
称 为 类 的 方法 属性 。 如 果 你 现在 对 此 感到 困惑 不 解 ， 不 要 担心 ， 我 们 之 后 会 多 次 讨论 这 个 主题 。 

类 支持 两 种 操作 。 

口 实例 化 : 创建 类 的 实例 。 例 如 ， 语 句 s = Intset() 会 创建 一 个 新 的 Intset 类 型 的 对 象 ， 

这 个 对 象 就 称 为 Intset 类 的 一 个 实例 。 

口 属性 引用 : 通过 点 标记 法 访问 与 类 关联 的 属性 。 例 如 ，s .member 表 示 与 TIntset 类 型 的 实 
例 s 关 联 的 member 方 法 。 

每 个 类 定义 都 以 保留 字 class 开 头 ， 后 面 是 类 名 和 其 他 信息 ， 表 明 这 个 类 是 如 何 与 其 他 类 相 
关联 的 。 本 例子 中 ， 第 一 行 代 码 表示 Intset 类 是 object 类 的 一 个 子 类 。 我 们 现在 可 以 先 忽 略 子 
类 的 意义 ， 很 快 就 会 讲 到 。 

正如 我 们 看 到 的 ，Python 中 有 一 些 特殊 的 方法 名 ， 这 些 名 称 的 开头 和 结尾 都 是 两 个 下 划 线 。 
我 们 首先 介绍 _init ， 只 要 一 个 类 被 实例 化 ， 就 会 调用 该 类 中 定义 的 _init_ 方 法。 执行 以 
下 代码 时 : 

s = IntSet() 
解释 器 会 创建 一 个 Intset 类 型 的 新 实例 , 然后 调用 Intset. init 方法, 并 使 用 新 创建 的 对 象 
作为 实 参 ， 绑 定 到 形 参 self 上 。Intset._ init 被 调用 时 ， 会 创建 一 个 List 类 型 的 对 象 vals ， 
这 个 对 象 会 成 为 新 创建 的 Intset 类 型 的 实例 的 一 部 分 。( 列表 是 由 我 们 熟悉 的 [] 符 号 创建 的 ， 这 
只 是 list() 的 一 种 简写 。) 这 个 列表 称 为 Intset 实 例 的 数据 属性 。 请 注意 ,每 个 Intset 类 型 的 对 
象 都 有 不 同 的 列表 vals， 我 们 正 希 望 如 此 。 

正如 我 们 所 见 ， 与 类 实例 关联 的 方法 可 以 使 用 点 标记 法 调用 。 例 如 ， 以 下 代码 : 


s = IntSset() 
s.insert(3) 
print(s.member(3)) 


会 创建 Intset 的 一 个 新 实例 ， 并 在 这 个 Intset 中 插入 整数 3， 然 后 输出 True。 
乍 一 看 ,这 里 好 像 有 些 与 前 面 不 一 致 的 地 方 ， 看 上 去 调用 每 个 方法 时 ,参数 都 少 了 一 个 。 例 
如 ，member 有 两 个 形 参 ， 但 我 们 只 使 用 一 个 实 参 调 用 它 。 这 时 ， 点 标记 法 的 作用 就 体现 出 来 了 。 
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表达 式 中 ， 点 号 前 面 的 对 象 会 被 隐 含 地 作为 第 一 个 实 参 传人 方法 。 在 本 书 中 ， 我 们 会 遵照 惯例 ， 

使 用 self 作 为 与 这 个 实 参 绑 定 的 形 参 名 。Python 程 序 员 普 遍 遵 守 这 一 惯例 , 我 们 强烈 建议 你 也 这 

样 做 。 

不 应 当 把 类 与 类 的 实例 混为一谈 ， 就 像 一 个 1ist 类 型 的 对 象 不 应 该 与 1ist 类 型 混为一谈 一 

样 。 属 性 既 可 以 关联 到 类 本 身 ， 也 可 以 关联 到 类 的 实例 。 

口 方法 属性 定义 在 类 定义 中 ， 例 如 ，Intset .member 是 Intset 类 中 的 一 个 属性 。 例 如 ， 类 
通过 语句 s = Intset() 被 实例 化 时 ， 实 例 属 性 才 被 创建 ， 如 s.member 。 请 注意 ， 
IntSset .member 和 s.member 是 不 同 的 对 象 。 尽 管 s.member 在 初始 化 时 绑 定 到 了 定义 在 
IntSset 类 中 的 member 方 法 ， 但 这 个 绑 定 在 计算 过 程 中 是 可 以 改变 的 。 例 如 ， 你 可 以 〈 但 
不 应 该 ! ) 写 出 s.member = IntSet.insert。 

口 数据 属性 被 关联 到 类 时 ， 我 们 将 其 称 为 类 变量 ; 数据 属性 被 关联 到 实例 时 ， 我 们 将 其 称 
为 实例 变量 。 例 如 ，vals 是 一 个 实例 变量 ， 因 为 对 于 Intset 类 的 每 个 实例 ，vals 被 绑 定 
到 不 同 列表 。 我 们 目前 还 没有 见 过 一 个 类 变量 ， 图 8-3 将 首次 使 用 。 

数据 抽象 实现 了 表示 上 的 独立 性 。 我 们 可 以 认为 ， 对 一 个 抽象 类 型 的 实现 需要 以 下 几 部 分 : 

口 类 型 方法 的 实现 ; 

口 能 够 整体 表示 类 型 值 的 数据 结构 ; 

口 关于 方法 实现 如 何 使 用 数据 结构 的 约定 。 一 个 关键 的 约定 由 表示 不 变性 给 出 。 

表示 不 变性 定义 了 数据 属性 中 的 哪个 值 对 应 着 类 实例 的 有 效 表 示 。Intset 的 表示 不 变性 是 

vals 中 不 包含 重复 的 值 。_init_ 方法 负责 建立 不 变性 ( 创建 一 个 空 列 表 )， 其 他 方法 则 负责 维 

持 不 变性 。 因 此 ， 只 有 e 不 在 self.vals 中 时 ，insert 方 法 才能 将 e 添 加 进去 。 

remove 方 法 的 实现 利用 了 一 个 假设 ， 即 执行 remove 方 法 时 ， 表 示 不 变性 是 满足 的 。 因 此 ， 

只 需 调用 一 次 1ist.remove， 因 为 表示 不 变性 保证 self.vals 中 最 多 只 有 一 个 e。 

类 中 定义 的 最 后 一 个 方法 是 _str_， 这 也 是 一 个 特殊 的 _ 方 法。 执行 print 命 令 时 ,会 自 

动 调用 与 待 输 出 对 象 相 关联 的 _ str_ 方法 。 例 如 ， 以 下 代码 : 


s = IntSet() 
s.insert(3) 
s.insert(4) 
print(s) 


会 输出 : 

{3,4} 

( 如 果 没 有 定义 _str 方法， 那么 执行 print(s) 时 会 输出 类 似 <_ main .IntSset object 
at 6x1663516> 的 结果 。) 我 们 还 可 以 使 用 print s. str _() 其 至 print IntStr. str _(s) 
输出 s 的 值 , 但 这 样 不 太 方便 。 程 序 调 用 str 函 数 来 将 这 个 类 的 一 个 实例 转换 为 字符 串 时 ,也 会 调 
用 这 个 类 的 _ str_ 方法 。 

所 有 用 户 自 定义 类 的 实例 都 是 可 散 列 的 ， 因 此 可 以 用 作 字 典 键 。 如 果 没 有 提供 _hash_ 方 
法 ， 那 么 这 个 对 象 的 散 列 值 就 由 函数 id (参见 5.3 节 ) 得 出 。 如 果 没 有 提供 _eq_ 方法， 那么 所 
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有 对 象 都 被 认为 是 不 相等 的 ( 除了 等 于 它们 自己 )。 如 果 提 供 了 用 户 自 定义 的 _hash_ 方法 ， 那 
么 这 个 方法 必须 保证 对 象 的 散 列 值 在 其 整个 生命 周期 中 是 不 变 的 。 


8.1.1 使 用 抽象 数据 类 型 设计 程序 


抽象 数据 类 型 非常 重要 , 它 可 以 衍生 出 一 种 组 织 大 型 程序 的 新 思维 方式 。 我 们 通过 思考 认识 
世界 时 ,依赖 的 就 是 抽象 。 在 金融 领域 , 人 们 谈论 股票 和 债券 ; 在 生物 学 领域 人们 谈论 蛋白 
和 残留 物 。 我 们 试图 理解 这 些 概念 时 ， 实 际 上 是 在 脑海 中 搜集 与 这 些 对 象 有 关 的 数据 和 特性 ， 
后 放 在 一 起 形成 一 个 知识 包 。 举 例 来 说 , 我 们 理解 债券 时 ， 认 为 它 具 有 利率 和 到 期 日 这 些 数 据 属 
性 ， 并 具有 如 “定价 ”和 “计算 到 期 收入 ”这 样 的 一 些 操作 。 抽 象 数据 类 型 允许 我 们 将 这 种 组 织 
方式 集成 到 程序 设计 中 。 

数据 抽象 发 励 程序 设计 者 以 数据 对 象 作为 程序 设计 的 中 心 , 而 不 是 以 函数 为 中 心 。 与 将 程序 
看 作 函 数 的 集合 相 比 ， 认 为 “程序 是 类 型 的 集合 ”这 种 思想 会 导致 截然 不 同 的 程序 组 织 原则 。 除 
去 其 他 优点 之 外 ， 这 种 思想 会 鼓励 我 们 将 编程 看 作 一 个 将 一 些 相对 较 大 的 模块 组 合 起 来 的 过 程 ， 
因为 数据 抽象 一 般 会 比 单个 函数 包含 更 多 功能 。 于 是 ， 这 就 使 我 们 更 深刻 地 意识 到 编程 的 本 质 ， 
即 编程 并 不 是 一 个 编写 一 行 行 单独 代码 的 过 程 ， 而 是 一 个 组 织 抽象 的 过 程 。 

可 重用 抽象 的 使 用 不 但 能 减少 开发 时 间 , 一 般 还 能 提高 程序 的 可 靠 性 ,因为 成 熟 软件 通常 比 
新 软件 更 可 靠 。 多 年 以 来 ,只 有 统计 和 科学 计算 程序 库 被 广泛 使 用 。 但 现在 已 经 有 大 量 可 靠 的 程 
序 库 ( 特别 对 于 Python 来 说 ) 可 用 ， 它 们 通常 基于 一 组 丰富 的 数据 抽象 开发 完成 ， 就 像 我 们 之 后 
会 看 到 的 一 样 。 


8.1.2 ”使 用 类 记录 学 生 与 教师 


作为 一 个 使 用 类 的 示例 , 假设 你 正在 设计 一 个 程序 ， 记录 大 学 中 所 有 学 生 和 教师 的 信息 。 当 
然 , 不 使 用 数据 抽象 也 可 以 完成 这 个 程序 。 每 个 学 生 都 有 姓氏 、 名 字 、 家 庭 住址 、 年 级 、 成 绩 等 
信息 , 这 些 信息 都 可 以 通过 列表 和 字典 的 某 种 组 合 保存 下 来 。 保存 教 职 工 信 息 所 需 的 数据 结构 与 
前 面 大 体 相似 ,但 也 有 一 些 不 同 ， 如 记录 工资 历史 的 数据 结构 。 

匆匆 忙 忙 开 始 一 大 堆 数 据 结构 的 设计 之 前 , 我 们 应 该 先 仔细 思考 可 能 有 用 的 抽象 是 否 有 一 
种 抽象 可 以 覆盖 学 生 、 教 授 和 职员 的 常用 属性 呢 ? 有 人 提出 ， 他 们 都 是 人 类 。 图 8-2 给 出 了 一 个 
包括 人 类 常用 属性 ( 如 姓名 和 生日 ) 的 类 ， 这 个 类 使 用 了 Python 标准 库 模 块 datetime， 提 供 了 很 
多 创建 和 处 理 日 期 数据 的 方法 ， 非 常 方便 。 
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import datetime 


class Person(obJject) : 


def 


def 


def 


def 


def 


def 


False。 


def 


_init (self, name): 
"创建 一 个 人 """ 
self.name = name 
try: 
lastBlank = name.rindex(' ') 
self.lastName = name[lastBlank+1:] 
except: 
self.1lastName = name 
self.birthday = None 


getName(self): 
"un 返回 self 的 会 名 """ 
return self.name 


getLastName(self): 


wun 返回 self 的 姓 """ 
return self.1astName 


setBirthday(self, birthdate): 

""" 假 设 birthday 是 datetime.date 类 型 
将 self 的 生日 设置 为 birthday""" 

self.birthday = birthdate 


getAge(self) : 
""" 返 回 self 的 当前 年 龄 ， 用 日 表示 """ 
if self.birthday == None: 
raise ValueError 
return (datetime.date.today() - self.birthday).days 


_lt (self, other): 
"" "如 果 self 榨 字母 顺序 位 于 other 之 前 ， 则 返回 True， 和 否则 返回 


首先 按照 姓 进行 比较 ， 如 果 姓 相同 ， 就 按照 全 名 比较 """ 
if self.lastName == other.1lastName: 
return self.name < other.name 
return self.lastName < other.1astName 


__str_(self): 
"" "返回 self 的 全 名 """ 
return self.name 





图 8-2” Person 类 


以 下 代码 使 用 了 Person 类 : 


me 


Person('Michael Guttag') 
him = Person('Barack Hussein Obama') 
her = Person('Madonna') 
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print(him.getLastName()) 
him.setBirthday(datetime.date(1961, 8, 4)) 
her.setBirthday(datetime.date(1958, 8, 16)) 
print(him.getName(), "is', him.getAge(), 'days ol1d') 


请 注意 ， 只 要 person 被 实例 化 ， 就 要 为 _init_ 函数 提供 一 个 实 参 。 一 般 来 说 ， 实 例 化 一 


个 类 时 ， 我 们 应 该 看 一 下 这 个 类 的 _init_ 函 数 的 规范 ， 知 道 应 该 使 用 哪些 5 人 参数， 以 及 这 些 参 


数 应 


实例 
但 是 
对 于 
有 生 
可 以 




















该 具有 什么 性 质 。 

执行 以 上 代码 后 ， 会 产生 person 类 的 3 个 实例 ， 可 以 使 用 与 这 些 实例 关联 的 方法 来 访问 这 些 
的 信息 。 例 如 ，him.getLastName() 会 返回 obama。 表 达 式 him.1astName 也 会 返回 0bama; 

， 通 过 表达 式 直接 访问 实例 变量 是 不 好 的 做 法 ， 应 该 尽量 避免 ， 原因 会 在 后 面 讲 到 。 同 样 ， 
Person 抽 象 的 用 户 , 直接 提取 一 个 人 的 生日 也 不 是 合适 的 做 法 , 尽管 类 实现 中 包含 了 一 个 带 
日 值 的 属性 。( 当然 ， 向 类 添加 一 个 getBirthday 方 法 也 非常 容易 。) 然而 ， 我 们 有 一 种 方法 
提取 基于 生日 的 信息 ， 就 像 以 上 代码 中 最 后 一 个 print 语 句 演示 的 那样 。 



































Person 类 还 定义 了 一 个 带 有 特殊 名 称 的 方法 _It__“， 这 个 方法 重 载 了 < 操作 符 。 只 要 < 操作 


符 的 第 


str 类 














一 个 参数 是 Person 类 型 ， 则 调用 Person. 1t 方法。Person 类 中 的 _1t_ 方法 是 使 用 
型 的 二 元 操作 符 < 实 现 的 。 表 达 式 self.name < other.name 是 self.name._1t _ 























(other.name) 的 简写 。 因 为 self.name 是 str 类 型 的 ， 所 以 这 个 _1t 方法 是 关联 到 str 类 型 的 


方法 


多 态 方法 的 自动 调用 。 内 置 方法 sort 就 是 这 样 一 种 多 态 方法 。 举 例 来 说 ， 如 果 plist 是 一 个 由 


O 


除了 使 用 < 连接 表达 式 提供 语法 上 的 便捷 性 之 外 ， 这 个 重 载 还 提供 了 对 任何 由 _1t_ 定义 的 












































Person 类 型 的 元 素 组 成 的 列表 ， 那 么 调用 plist .sort( ) 会 使 用 定义 在 Person 类 中 的 _1t_ 方法 
来 对 列表 进行 排序 。 


以 下 代码 : 


pList = [me, him, her] 

for p in pLlist: 
print(p) 

pList.sort() 

for p in pLlist: 
print(p) 


会 完 输出 : 




















再 答 


Michael Guttag 
Barack Hussein Obama 
Madonna 


出 : 


Michael Guttag 
Madonna 
Barack Hussein Obama 
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8.2 继承 


不 同 的 类 型 中 有 许多 通用 的 属性 。 例 如 ，1ist 类 型 和 str 类 型 都 具有 1len 函 数 ， 意 义 也 完全 
一 样 。 继 承 提供 了 一 种 方便 的 机 制 , 可 以 建立 一 组 彼此 相关 的 抽象 。 它 使 程序 员 能 够 建立 一 个 类 
型 的 层次 结构 ， 其 中 每 个 类 型 都 可 以 从 上 层 的 类 型 继承 属性 。 

object 类 在 最 顶层 。 这 很 容易 理解 ， 因 为 在 Python 中 ， 存 在 于 运行 时 的 一 切 都 是 对 象 。 因 为 
Person 继 承 了 对 象 的 所 有 属性 ， 所 以 程序 可 以 将 一 个 变量 绑 定 到 Person 实 例 ， 或 者 将 Person 实 
例 添 加 到 一 个 列表 ， 等 等 。 

图 8-3 中 的 类 MITPerson 继 承 了 它 的 父 类 Person 中 的 属性 ， 其 中 也 包括 Person 从 它 的 父 类 

object 中 继承 的 所 有 属性 。 用 面向 对 象 编程 的 术语 来 说 ，MITPerson 是 Person 的 一 个 子 类 ， 所 以 

继承 了 它 的 超 类 的 属性 。 除 了 继承 属性 之 外 ， 子 类 还 可 以 做 如 下 的 事 。 

口 添加 新 的 属性 。 例 如 ， 子 类 MITPerson 中 新 增 了 类 变量 nextIdNum 、 实 例 变量 idNum 和 方 

法 getIdNum。 

口 覆盖 一 也 就 是 替换 一 超 类 中 的 属性 。 例 如 ，MITPerson 就 覆盖 了 _init 和 _ 1lt 。 
如 果 一 个 方法 被 覆盖 ， 那 么 调用 这 个 方法 时 使 用 的 版 本 就 要 根据 调用 这 个 方法 的 对 象 来 
确定 。 如 果 这 个 对 象 的 类 型 是 子 类 ， 那 么 就 使 用 定义 在 子 类 中 的 方法 版 本 ; 如 果 对 象 的 
类 型 是 超 类 ， 那 么 就 使 用 超 类 中 的 版 本 。 





























































































































class MITPerson(Person) : 
nextIdNum = 8 #identification number 


def _ init (self, name): 
Person. init (self, name) 
self.idNum = MITPerson.nextIdNum 
MITPerson.nextIdNum += 1 


def getIdNum(self): 
return self.idNum 


def _]1t_ (self, other): 
return self.idNum < other.idNum 











图 8-3 ”MITPerson 类 


MITPerson. init 方法 首先 调用 person. _init 初始 化 被 继承 的 实例 变量 self.name， 
然后 初始 化 self.idNum。 这 个 实例 变量 只 在 MITPerson 实 例 中 才 有 ，pPerson 实 例 中 则 没有 。 

实例 变量 self.idNum 的 初始 化 是 通过 类 变量 nextIdNum 实 现 的 ， 这 个 类 变量 不 是 属于 
MITPerson 类 的 实例 的 , 而 是 属于 这 个 类 。 创建 一 个 新 的 MITPerson 实 例 时 ,并 不 创建 nextIdNum 
的 新 实例 。 这 使 得 _init_ 方法 可 以 确保 每 个 MITPerson 实 例 都 具有 唯一 的 idNum。 

看 一 下 这 段 代码 : 
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pl = MITPerson('Barbara Beaver') 
print(str(p1) + '\'s id number is ' + str(p1.getIdNum())) 


第 一 行 代码 创建 了 一 个 新 的 MITPerson 实 例 。 第 二 行 代 码 则 更 复杂 一 些 。 运 行 时 系统 试图 对 
表达 式 str(p1) 求 值 时 , 它 首先 检查 是 否 有 与 MITPerson 类 关联 的 _str_ 方 法。 因为 没有 这 个 方 
法 ， 所 以 继续 检查 是 否 有 与 MITPerson 的 超 类 Person 关 联 的 _str_ 方法 。 这 个 方法 存在 ,于 是 
运行 时 系统 进行 调用 。 运 行 时 系统 试图 对 表达 式 p1. getIdNum 求 值 时 ， 它 首先 检查 是 否 有 与 
MITPerson 类 关联 的 getIdNum 方 法 。 这 个 方法 存在 ， 所 以 运行 时 系统 调用 这 个 方法 ， 输 出 : 
Barbara Beaver's id number is 6 
( 回忆 一 下 ， 在 字符 串 中 ,“\” 是 一 个 转 义 字符 ， 用 来 表示 后 面 的 字符 具有 特殊 意义 。 在 以 下 字 
符 串 中 : 
'\'s id number is ' 
“ ”表示 单 引号 是 字符 串 的 一 部 分 ， 不 是 表示 字符 串 结束 的 分 隔 符 。) 
再 看 一 下 这 段 代 码 : 










































































p1 = MITPerson('Mark Guttag') 

p2 = MITPerson('Billy Bob Beaver') 
p3 = MITPerson('Billy Bob Beaver') 
p4 = Person('Billy Bob Beaver') 


我 们 创建 了 4 位 虚拟 人 物 , 其 中 三 人 的 名 字 都 是 Billy Bob Beaver， 两 位 Billy Bob 是 MITPerson 类 型 
的 ， 其 余 的 一 位 仅 是 Pearson 类 型 。 如 果 我 们 执行 以 下 代码 : 


', pl < p2) 
',， Pp3 < p2) 
',，p4 < p1) 


False 


True 





print('pl1 < p2 
print('p3 < p2 
print('p4 < pl 


解释 名 会 输出 : 
pl1< p2 


p3 < p2 
p4< pl 


因为 pl 、p2 和 p3 都 是 MITPerson 类 型 ， 解释 器 评估 前 两 个 比较 的 结果 时 ， 会 使 用 定义 在 
MITPerson 类 中 的 _1t_ 方法 , 所 以 大 小 顺序 是 根据 学 号 idNum 确 定 的 。 第 三 个 比较 表达 式 中 ，< 
操作 符 被 应 用 在 两 个 不 同类 型 之 间 ， 因 为 调用 哪 种 _1lt “方法 是 由 表达 式 的 第 一 个 参数 决定 的 ， 
p4 < pl 是 p4.”_1t _(p1) 的 简写 ， 所 以 解释 器 使 用 与 p4 的 类 型 person 关 联 的 _1t_ 方法， 按照 
名 字 排 序 。 

运行 下 面 的 代码 会 发 生 什么 呢 : 

Print('p1 < p4 =', pl < p4) 
运行 时 系统 会 调用 与 p1 的 类 型 关联 的 _1t_ 操作 符 , 也 就 是 定义 在 MITPerson 类 中 的 函数 。 这 就 
会 导致 一 个 异常 : 


AttributeError: "Person” object has no _ attribute "idNum' 
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因为 与 p4 绑 定 的 对 象 中 没有 idNum 这 个 属 | 


可 串 
ol 
一 一 
订 
O 





8.2.1 多 重 继承 
图 8-4 回 类 层次 结构 添加 了 二 重 继承 。 








class Student(MITPerson ) : 
pass 


class UG(Student ) : 
def _ init (self, name, classYear): 
MITPerson. init (self, name) 
self.year = classYear 
def getClass(self): 
return self.year 






MITPerson 


class Grad(Student): 
pass 








图 8-4 ”两 类 学 生 


添加 uG 类 应 该 很 好 理解 ,因为 我 们 想 为 每 个 本 科 生 关联 一 个 毕业 年 份 ( 或 是 预期 毕业 年 份 )。 
但 student 类 和 Grad 类 的 作用 是 什么 呢 ? 两 个 类 都 使 用 Python 保留 字 pass 作 为 类 中 内 容 ， 这 说 明 
它们 只 有 继承 自 超 类 的 属性 。 为 什么 会 有 人 创建 一 个 没有 新 属性 的 类 呢 ? 

通过 引入 Grad 类 , 我 们 可 以 获得 这 样 一 种 能 力 , 即 创建 两 种 不 同类 型 的 学 生 并 使 用 他 们 的 类 
型 来 区 分 各 自 的 对 象 。 例 如 ， 以 下 代码 : 


p5 = Grad('Buzz Aldrin') 

p6 = UG('Billy Beaver', 1984) 

print(p5, "is a graduate student is', type(p5) == Grad) 
print(p5, "is an undergraduate student is', type(p5) == UG) 


会 输出 : 


Buzz Aldrin is a graduate student is True 
Buzz Aldrin is an undergraduate student is False 


中 间 类 型 student 的 作用 有 些微 妙 。 假 设 我 们 回 到 MITPerson 类 ， 添 加 以 下 方法 : 


def isStudent(self): 
return isinstance(self, Student) 


函数 isninstance 是 内 置 在 Python 中 的 ， 其 中 第 一 个 参数 可 以 是 任何 对 象 ， 但 第 二 个 参数 必 
须 是 一 个 type 类 型 的 对 象 。 函 数 当 且 仅 当 第 一 个 参数 是 第 一 个 参数 的 一 个 实例 时 ， 才 返回 True。 
例如 ，isinstance([1，2]，1ist) 的 值 是 True。 

回 到 我 们 的 例子 中 ， 以 下 代码 : 
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print(p5, "is a student is', p5.isStudent()) 
print(p6, 'is a student is', p6.isStudent()) 
print(p3, "is a student is', p3.isStudent()) 


会 输出 : 


Buzz Aldrin is a student is True 
Billy Beaver is a student is True 
Billy Bob Beaver is a student is False 


请 注意 ，isinstance(p6，Student) 与 type(p6) == Student 在 意义 上 是 截然 不 同 的 。 与 p6 
绑 定 的 对 象 类 型 是 uG6， 不 是 student， 但 因为 U6 是 Student 的 子 类 ， 所 以 p6 绑 定 的 对 象 被 认为 是 
student 类 的 一 个 实例 (也 是 MITPerson 类 和 Person 类 的 实例 )。 

既然 只 有 两 类 学 生 ， 我 们 也 可 以 这 样 实现 isstudent 方 法 : 


def isStudent(self): 
return type(self) == Grad or type(self) == UG 


但 这 样 一 来 , 如 果 之 后 又 引入 了 一 个 新 的 学 生 类 型 , 就 必须 回去 修改 实现 isstudent 的 代码 。 
通过 引入 一 个 中 间 类 student 并 使 用 isinstance 孙 数 ， 可 以 避免 这 个 问题 。 例如， 如 果 我 们 加 入 
这 样 一 个 学 生 类 型 . 


class TransferStudent(Student): 










































































def _ init (self, name, fromSchool): 
MITPerson. init (self, name) 
self.fromSschool = fromSschool 


def getOldSchool(self): 
return self.fromschool 


就 根本 不 需要 对 isstudent 做 出 任何 修改 。 
程序 开发 与 维护 过 程 中 , 向 原来 的 类 添加 新 类 或 新 属性 
进行 精心 设计 ， 使 修改 程序 时 所 需 的 代码 量 最 少 。 








很 常见 的 。 优秀 的 程序 员 会 对 程序 


江 





本 





8.2.2 ” 蔡 换 原 则 


使 用 子 类 定义 一 个 类 型 的 层次 结构 时 , 子 类 应 该 被 看 作对 超 类 行为 的 扩展 , 这 种 扩展 是 通过 
添加 新 属性 或 对 继承 自 超 类 的 属性 进行 覆盖 来 实现 的 。 例 如 ，Transferstudent 通 过 引入“ 前 学 
校 ” 这 个 新 属性 扩展 了 Student 类 。 

有 些 时 候 ， 子 类 会 覆盖 超 类 中 的 方法 ,这 时 一 定 要 小 心 。 尤 其 是 ， 超 类 中 的 重要 行为 必须 被 
所 有 子 类 支持 。 如 果 客 户 代 码 使 用 超 类 实例 能 够 正确 运行 ,那么 使 用 子 类 实例 替换 超 类 实例 时 ， 
代码 应 该 也 能 正确 和 运行。 例如， 使 用 Student 实 例 的 代码 应 该 能 在 TransferStudent 的 实例 上 正 
确 运 行 。” 

相反 , 我 们 没有 理由 期 望 使 用 TransferStudent 的 代码 对 于 任意 Student 类 型 实例 也 能 正确 运行 。 


































































































GD 这 种 替换 原则 由 芭 芭 拉 … 利 斯 科 夫 和 周 以 真 在 1994 年 的 论文 “Abehavioral notion of subtyping” 中 进行 了 清晰 的 阐述。 
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8.3 ”封装 与 信息 隐藏 


既然 我 们 在 设计 学 生 类 ， 如 果 不 让 他 们 尝 尝 上 课 和 考试 的 苦头 ， 那 可 就 太 遗 憾 了 。 
图 8-5 中 的 类 可 以 用 来 记录 一 组 学 生 的 成 绩 。Grades 类 的 实例 使 用 一 个 列表 和 一 个 字典 实现 ， 
列表 用 来 记录 类 中 的 学 生 ， 字 典 则 将 学 生 的 学 号 映射 到 一 个 成 绩 列表 。 


三 由 天 
碟子 














def 


def 


def 


def 


def 





class Grades(object): 


_init (self): 


"" "创建 一 个 空 的 成 绩 册 """ 
self.students = [] 
self.grades = {} 
self.isSorted = True 


addStudent(self, student): 
"" "假设 student 为 Student 类 型 

将 student 添 加 到 成 绩 册 """ 
if student in self.students: 

raise ValueError('Duplicate student') 

self.students.append(student) 
self.grades[student.getIdNum()] = [] 
self.isSorted = False 


addGrade(self, student, grade): 
"" "假设 grade 为 浮 点 数 
将 grade 添 加 到 student 的 成 绩 列表 """ 


try: 
self.grades[student.getIdNum()].append(grade) 
except: 
raise ValueError('Student not in mapping') 
getGrades(self, student): 


""" 返 回 student 的 成 绩 列表 """ 
try: #return copy of list of student's grades 
return self.grades[student.getIdNum()][:] 
except: 
raise ValueError('Student not in mapping') 


getStudents(self): 
""" 返 回 成 绩 册 中 排 好 序 的 成 绩 列 表 """ 
if not self.isSorted: 
self.students. sort() 
self.isSorted = True 
return self.students[:]# 返 回 一 个 学 生 列表 的 副本 








图 8-5”Grades 类 





请 注意 ，getGrades 方 法 返回 的 是 某 个 学 生 的 成 绩 列表 的 副本 ，getstudents 方 法 返回 的 则 


生 列 表 的 一 个 副本 。 复制 列表 会 导致 额外 的 计算 成 本 , 可 以 直接 返回 实例 变 








量 本 身 来 避免 复 





8.3 封装 与 信息 隐藏 95 





制 。 但 是 这 样 做 会 导致 一 些 问题 。 看 下 面 的 代码 : 


allStudents = coursel.getStudents() 
allStudents.extend(course2.getStudents()) 


如 果 getstudents 返 回 self.students， 那 么 第 二 行 代码 就 可 能 产生 一 个 ( 意料 之 外 的 ) 副 
作用 ， 修 改 course1 中 的 学 生 集合 。 

实例 变量 issorted 用 来 记录 学 生 列 表 自 从 上 次 添加 学 生 以 来 是 否 进行 过 排序 ， 这 使 得 
getstudents 方 法 不 用 再 对 一 个 已 经 排 过 序 的 列表 进行 排序 。 

图 8-6 中 的 函数 使 用 Grades 类 为 选修 sixHundred 这 门 课程 的 学 生 制 作 了 一 个 成 绩 报告 。 
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def gradeReport(course): 
""" 假 设 course 是 Grades 类 型 """ 


report = "" 
for s in course.getStudents(): 
tot = 60.06 


numGrades = 6 
for g in course.getGrades(s): 
tot += g 
numGrades += 1 
try : 
average = tot/numGrades 
report = report + '\n'\ 
+ str(s) + '\'s mean grade is 
except ZeroDivisionError: 
report = report + '\n'\ 
+ str(s) + ' has no grades' 


+ str(average) 


return report 


ug1 = UG('Jane Doe' ，2614) 

ug2 = UG('John Doe' ，2615) 

ug3 = UG('David Henry' ，2663) 

g1 = Grad('Billy Buckner') 

g2 = Grad('Bucky F. Dent') 

sixHundred = Grades() 

sixHundred.addSstudent(ug1) 

sixHundred.addSstudent(ug2) 

sixHundred.addSstudent(g1) 

sixHundred.addSstudent(g2) 

for s in sixHundred.getStudents(): 
sixHundred.addGrade(s, 75) 

sixHundred.addGrade(g1, 25) 

sixHundred.addGrade(g2，166) 

sixHundred.addSstudent(ug3) 

print gradeReport(sixHundred) 














图 8-6 ”生成 成 绩 报 告 





运行 图 中 的 代码 ， 会 输出 : 
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Jane Doe's mean grade is 75.6 

John Doe's mean grade is 75.6 
David Henry has no grades 

Billy Buckner 's mean grade is 56.6 
Bucky F. Dent's mean grade is 87.5 


面向 对 象 编程 的 核心 思想 有 两 个 重要 概念 。 第 一 个 就 是 封装 ,将 数据 属性 和 操作 数据 属性 的 
方法 打包 在 一 起 。 例 如 下 面 的 代码 : 

Rafael = MITPerson('Rafael Reif') 
可 以 使 用 点 标记 法 访问 属性 ， 比 如 Rafael 的 名 字 和 学 号 。 

第 二 个 重要 概念 是 信息 隐藏 , 这 是 模块 化 的 关键 要 素 之 一 。 如 果 程 序 中 使 用 类 的 那 部 分 代码 
( 即 类 的 客户 代码 ) 必须 严格 依照 类 方法 的 规范 进行 编写 ， 那 么 程序 员 实 现 类 时 ， 就 可 以 随心 所 
和 欲 地 修改 类 的 实现 代码 〈 如 提高 效率 )， 而 不 用 担心 会 破坏 那些 使 用 类 的 代码 。 

有 些 编程 语言 (如 Java 和 C++ ) 提供 了 强制 隐藏 信息 的 机 制 ， 程 序 员 可 以 使 类 的 属性 成 为 私 
有 ， 这 样 类 的 客户 代码 只 能 通过 对 象 方法 访问 数据 。 在 Python 3 中 ， 可 以 使 用 命名 惯例 使 属性 在 
类 之 外 不 可 见 。 当 一 个 属性 的 名 称 以 _ 开头 但 不 以 _ 结束 时 , 这 个 属性 在 类 外 就 是 不 可 见 的 。 下 
面 看 看 图 8-7 中 的 类 。 
















































































class infoHiding(object): 
def _ init (self): 


self.visible = "Look at me' 
self. alsoVisible = "Look at me 七 00"' 
self.__invisible = 'Don\'t look at me directly 


def printVisible(self): 
print(self.visible) 


def printInvisible(self) : 
print(self. invisible) 


def _ printInvisible(self): 
print(self. invisible) 


def _ printInvisible (self): 
print(self. invisible) 

















图 8-7 在 类 中 隐藏 信息 
运行 以 下 代码 : 
test = infoHiding() 
print(test.visible) 


print(test. alsoVisible ) 
print(test. invisible) 


会 输出 : 
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Look at me 
Look at me too 
Error: 'infoHiding' object has no _ attribute "invisible' 


以 下 代码 : 


test = infoHiding() 
test.printInvisible() 
test. printInvisible_() 
test. printInvisible() 


会 输出 : 
Don't look at me directly 


Don't look at me directly 
Error: 'infoHiding' object has no attribute '__printInvisible’' 


以 下 代码 : 
class subClass(infoHiding): 
def _ init (self): 
print('from subclass', self. invisible) 
testSub = subClass() 
会 输出 : 

Error: 'subClass' object has no attribute '_subClass_ invisible"' 

请 注意 ， 一 个 子 类 想 使 用 其 超 类 中 的 隐藏 属性 时 ， 会 产生 一 个 AttributeError 异 常 ， 这 使 
得 在 Python 中 实现 信息 隐藏 有 一 点 麻烦 。 

因为 这 点 小 麻烦 , 很 多 Python 程序 员 不 愿意 使 用 _ 这 种 方法 隐藏 属性 , 我 们 在 本 书 中 也 不 用 。 
因此 ， 使 用 Person 类 时 ， 可 以 使 用 表达 式 Rafael.1astname 代 赫 Rafael.getLastName()。 

这 有 一 点 无 奈 , 因为 这 样 会 使 客户 代码 参照 Person 类 规范 以 外 的 一 些 东西 , 所 以 如 果 类 发 生 
变化 , 客户 代码 就 可 能 受到 影响 。 例 如 ,如 果 Person 类 的 实现 发 生变 化 , 不 再 将 名 字 保 存 到 一 个 
实例 变量 ， 而 是 在 需要 时 才 提 取 ， 那 么 客户 代码 就 会 出 错 。 

在 Python 中 , 不 但 允许 程序 在 类 的 外 部 读 取 实 例 变量 和 类 变量 , 而 且 人 允许 程序 改写 这 些 变量 。 
例如 ， 人 代码 Rafael.birthday ='8/21/58' 是 完全 合法 的 。 这 样 一 来 ， 如 果 在 此 之 后 调用 
Rafael.getAge， 就 有 可 能 导致 一 个 运行 时 错误 。Python 语 言 甚 至 允许 为 类 的 实例 新 建 一 个 类 定 
义 中 没有 的 实例 变量 。 例 如 ， 如 果 在 类 定义 之 外 使 用 以 下 赋值 语句 : 

me.age = Rafael.getIdNum() 

Python 不 会 报错 6 

静态 语义 检查 相对 较 弱 是 Python 的 一 个 缺点 ， 但 并 不 致命 。 一 个 训练 有 素 的 程序 员 会 自觉 遵 

守 这 条 合理 的 规则 , 即 不 在 类 的 客户 代码 中 直接 访问 类 的 数据 属性 , 就 像 我 们 在 本 书 中 做 的 那样 。 


生成 器 
信息 隐藏 有 个 明显 的 风险 , 禁止 客户 代码 直接 访问 类 中 的 重要 数据 结构 会 导致 不 可 接受 的 极 
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大 的 效率 损失 。 在 数据 抽象 早 
现在 , 编 
算法 。 





























期 , 人们 主要 关注 的 是 引入 过 多 函数 调用 或 方法 调 月 
译 技术 已 经 使 这 种 担心 无 关 紧要 ,更 严重 的 问题 是 ， 


看 一 下 图 8-6 中 gradeReport 类 的 实现 。 调 用 course.getStudent 会 创建 
的 列表 ，n 是 学 生 数 量 。 这 对 于 一 个 班级 的 学 生来 说 不 是 什么 问题 ， 





上 所 带 来 的 成 本 。 
客户 程序 使 用 低 效 








ER 
[a] 息 


隐藏 会 迫 介 





F 返 回 一 个 大 小 为 n 
但 想象 一 下 ， 如 果 我 们 想 记 








录 参 加 SAT 考 试 的 170 万 高 中 学 生 的 成 绩 呢 ?如 果 列 表 已 经 存在 ， 那么 创建 这 么 大 一 个 列表 的 旭 


本 绝对 非常 低 效 。 一 种 解决 方法 是 放弃 
course.students， 但 这 样 会 违背 信息 隐藏 的 原 


月 | 百 心 、 











没有 用 过 的 语句 : yield 语 句 。 





抽象 ， 让 gradeReport 直接 访问 实例 变量 
则 。 幸 运 的 是 ， 我 们 还 有 更 好 的 解决 方法 。 








图 8-8 中 的 代码 使 用 一 个 新 版 本 代替 Grades 类 中 的 getSstudents 方 法 ， 其 中 应 用 了 一 种 我 们 





def getStudents(self): 


in alphabetical 


yield s 





""" 接 字母 顺序 每 次 返回 成 绩 册 中 的 一 个 学 生 """ 


if not self.isSorted: 
self.students.sort() 
self.isSorted = True 

for s in self.students : 


order"™"" 








图 8-8 ”新 版 getStudents 


所 有 包含 yield 语 句 的 函数 都 会 被 解释 器 特殊 人 处理 , yield 语 句 告 诉 Python 系 统 , 这 个 函数 是 
个 生成 器 。 生 成 器 一 般 与 for 语 句 一 起 使 用 ， 如 图 8-6 中 的 : 





for s in course.getStudents(): 

使 月 
执行 yiel1d 语 句 时 ， 生 成 名 返回 yieldi 
句 继续 运行 ， 
yield 语 句 后 结束 。 重 复 这 个 过 程 ， 
束 。? 
































book = Grades() 

book.addstudent(Grad('Julie')) 

book.addstudent(Grad('Charlie ' )) 

for s in book.getSstudents() : 
print(s) 





Q@ 这 是 个 简化 了 的 4 





成 器 解释 。 如 果 





想 充 分 了 解 





上 成 器 


有 生成 器 的 for 循 环 的 第 一 次 迭代 开始 时 ， 


解释 句 会 调用 生成 器 内 部 代码 。 运 行 至 第 一 次 





在 句 中 表达 式 的 值 。 下 一 次 迭代 中 ,生成 器 紧 接 着 yield 语 
此 时 所 有 局 部 变量 都 保持 为 上 次 yield 语 句 执行 完毕 时 的 值 ， 这 次 运行 
直到 所 有 代码 


仍然 到 执行 
毕 或 者 执行 到 一 个 return 语 句 ， 循 环 结 


:二 AY 二 二 > 


运 们 元 


图 8-8 中 的 getstudent 方 法 允许 程序 员 使 用 for 循 环 遍历 Grades 类 型 对 象 中 的 所 有 学 生 ， 就 
像 使 用 for 循 环 遍历 list 这 种 内 置 类 型 中 的 元 素 一 


样 。 例 如 ， 以 下 代码 : 





， 你 需要 了 解 Pythond 





Pp 内 置 的 迭代 器 是 如 何 实现 的 ， 本 书 不 
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会 输出 : 


Julie 
Charlie 


于 是 ， 图 8-6 中 的 循环 : 

for s in course.getStudents() : 
不 需 修改 就 可 以 使 用 新 版 Grades 类 ， 这 个 新 版 类 包含 了 getstudents 方 法 的 新 实现 。( 当然 ， 那 
些 需要 getstudents 返 回 一 个 列表 的 代码 多 数 将 不 能 正常 工作 。) 这 个 for 循 环 可 以 遍历 
getSstudents 的 返回 值 ， 不 管 它 返回 一 个 完整 的 列表 ， 还 是 每 次 生成 一 个 值 。 每 次 生成 一 个 值 效 
率 更 高 ， 因 为 不 需要 再 创建 一 个 包含 所 有 学 生 的 新 列表 。 


8.4 进 阶 示例 : 抵押 贷款 


2008 年 秋 , 美国 房价 暴跌 引发 了 一 场 严 重 的 经 济 危 机 , 原因 之 一 就 是 很 多 房屋 所 有 者 使 用 了 
抵押 贷款 ， 这 产生 了 始 料 未 及 的 严重 后 果 。” 

抵押 贷款 刚 出 现 的 时 候 , 非常 简单 明了 。 人 们 从 银行 借 钱 ， 每 月 支付 固定 的 还 款 金 额 ,在 整 
个 抵押 贷款 的 期 限 范围 内 一 直 这 样 做， 通常 持 续 15~30 年 。 到 达 贷款 期 限时 ， 银 行 收回 初始 贷款 
(本 金 ) 和 (最 重要 的 ) 利息 ， 房 主 们 则 “完全 和 彻底 地 ”拥有 了 房屋 。 

20 直 纪 末 ， 抵押 贷款 开始 变 得 越 来 越 复杂 。 在 贷款 期 间 ， 借 款 人 可 以 通过 向 出 借 人 支付 “点 
数 ” 的 方式 获得 比较 低 的 利率 ， 一 个 点 就 是 贷款 总 额 的 1%， 需 要 用 现金 支付 。 人 们 还 可 以 选择 
在 一 定时 期 内 “只 付 利 息 ” 的 抵押 贷款 ,也 就 是 说 ， 在 贷款 初期 的 若干 个 月 中 ,借款 人 只 需 偿还 
应 付 的 利息 ,不 需 偿还 本 金 。 还 有 一 些 贷 款 具有 多 种 利率 。 一 般 来 说 ,初始 利率 ( 又 称 “ 引 诱 利 
率 ”) 比较 低 ， 随 着 时 间 的 推移 ， 利 率 会 逐渐 升 高 。 这 种 贷款 一 般 具 有 浮动 利率 ， 即 初始 阶段 后 
的 利率 要 根据 某 种 指数 来 确定 ， 这 种 指数 可 以 反映 出 借 人 在 信贷 批发 市 场 上 融资 的 成 本 。” 

理论 上 ,让 消费 者 有 多 个 选择 方式 是 件 好 事 。 但 从 长 期 来 看 , 那些 肆 无 忌 习 的 贷款 承包 商 往 
往 不 关心 各 种 选择 方式 造成 的 影响 。 于 是 ,一些 借款 人 的 选择 就 带 来 了 可 怕 的 后 果 。 

下 面 ， 我 们 编写 一 个 程序 ， 计 算 以 下 三 种 贷款 方式 的 实际 成 本 : 
口 不 带 “ 点 数 ” 的 固定 利率 抵押 贷款 ; 
口 带 有 “点 数 ” 的 固定 利率 抵押 贷款 ; 
口 初始 引诱 利率 较 低 ， 但 随后 需要 支付 更 高 利率 的 抵押 贷款 。 

这 个 练习 的 目的 是 提供 一 些 经 验 , 告诉 你 如 何 持续 开发 一 组 相关 的 类 , 绝 不 是 为 了 让 你 成 为 
抵押 贷款 专家 。 

我 们 这 样 设计 代码 结构 ， 首 先 有 一 个 Mortgage 类 ， 对 应 上 面 列 出 的 每 种 抵押 贷款 方式 都 有 
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Qa 在 这 个 背景 之 下 ， 我 们 有 必要 回忆 “抵押 贷款 ”( mortgage ) 这 个 词 的 由 来 《美国 传统 英语 词典 》 认 为 这 个 词 来 
3 古代 法 语 ， 意 为 “死亡 (mort ) 和 保证 ( gage 》”。( 这 也 解释 了 为 什么 mortgage 中 间 的 t 不 发 音 。) 
@ 伦敦 银行 同业 拆借 利率 ( London Interbank Offered Rate，LIBOR ) 是 最 常用 的 指数 。 
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一 个 子 类 。 图 8-9 给 出 了 抽象 类 Mortgage。 抽 象 类 中 的 方法 可 以 供 每 个 子 类 使 用 ,但 这 个 类 不 能 


直接 实例 化 ， 也 就 是 说 ， 不 会 建立 任何 Mortgage 类 型 的 对 象 。 








def findPpPayment(loan, r, m): 
"" "假设 loan 和 r 是 浮 点 数 ，m 是 整数 


return loan*((r*(1+r)**m)/((1+r)**m - 1)) 


class Mortgage(object): 
""" 用 来 建立 不 同 种 类 抵押 贷款 的 抽象 类 """ 
def _ init (self, loan, annRate, months): 
"" "假设 loan 和 annRate 为 浮 点 数 ，month 为 整数 


self.loan = loan 
self.rate = annRate/12 
self.months = months 
self.paid = [6.6] 
self.outstanding = [loan] 


self.legend = None #description of mortgage 
def makePayment(self) : 


mn 支付 每 月 还 款额 "" 
self.paid.append(self.payment) 





def getTotalpaid(self): 
"Mm 返回 至 今 为 止 的 支付 总 额 """ 
return sum(self.paid) 


def _ str_(self): 
return self.legend 





返回 一 个 总 额 为 loan， 月 利率 为 r， 期 限 为 m 个 月 的 抵押 贷款 的 每 月 还 款额 """ 


创建 一 个 总 额 为 oan， 期 限 为 months，, 年 利率 为 annRate 的 新 抵押 贷款 """ 


self.payment = findpayment(loan, self.rate, months) 


reduction = self.payment - self.outstanding[-1]*self.rate 
self.outstanding.append(self.outstanding[-1] - reduction) 








图 8-9 ”Mortgage 基 类 


中 最 上 方 的 findPayment 函 数 可 以 计算 出 还 款 期 限 内 还 清 贷 





二 人 
不 人 





所 需 的 每 月 固定 支付 额 , 包 





括 需 要 支付 的 利息 。 计 算 所 用 的 表达 式 是 一 个 著名 的 公式 ,推导 这 个 表达 式 并 不 难 , 但 更 容易 的 


方法 是 在 网 上 查 一 下 ， 这 样 比 直接 推导 更 准确 。 





请 注意 ， 网 上 的 东西 并 不 都 正确 ( 甚至 教科 书 中 的 也 一 样 )。 如 果 你 的 代码 需要 用 到 网 上 的 


公式 ， 请 一 定 确认 以 下 几 点 。 


口 你 充分 理解 公式 中 每 个 变量 的 意义 。 





果 与 网 上 提供 的 贷款 计算 器 的 结果 进行 比较 。 











口 公式 来 源 值得 信赖 。 我 们 查找 了 多 个 可 信赖 的 来 源 ， 每 个 来 源 中 的 公式 都 是 等 价 的 。 
D 你 应 该 使 用 其 他 可 信赖 来 源 中 的 例子 测试 自己 的 代码 。 实 现 这 个 函数 后 ,我们 将 代码 结 


看 一 下 _init_ 方法， 我 们 知道 所 有 Mortgage 实 例 中 都 会 有 一 些 实例 变量 ,它们 表示 以 下 
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信息 : 初始 贷款 额 、 每 月 利率 、 贷 款 期 限 ( 以 月 计 )、 已 支付 的 每 月 还 款额 列表 ( 列表 从 0.0 开 始 ， 
因为 第 一 个 月 不 需 还 款 )、 每 月 的 未 支付 贷款 余额 列表 、 每 月 需 支 付 的 金额 (使 用 函数 
findPayment 的 返回 值 进行 初始 化 ) 和 对 抵押 贷款 的 一 个 简短 描述 ( 初始 值 为 None )。 每 个 
Mortgage 子 类 的 _init _ 操作 应 该 先 调用 Mortgage. init ， 然后 再 使 用 该 子 类 的 适当 描述 
初始 化 self.legend。 

makePayment 方 法 记录 抵押 贷款 的 偿还 情况 。 每 次 还 款 中 ， 因 为 有 未 还 清 的 贷款 余额 ， 所 以 
有 部 分 金额 是 用 来 支付 利息 费用 的 , 除去 利息 的 还 款 金 额 用 来 偿还 贷款 余额 所 以 , makePayment 
不 但 要 更 新 self.paid， 还 要 更 新 self.outstanding。 

getTotalPaid 方 法 使 用 了 Python 内 置 函 数 sum， 它 可 以 返回 一 个 数字 序列 的 总 和 。 如 果 序 列 
中 有 非 数 值 型 元 素 ， 就 会 抛 出 一 个 异常 。 

图 8-10 中 的 类 实现 了 3 种 类 型 的 抵押 贷款 。Fixed 类 和 FixedwithPts 类 禾 六 了 Mortgage 类 中 
的 _init_ 方法 ,继承 了 其 余 3 种 方法 。TwoRate 类 将 抵押 贷款 看 作 两 种 贷款 的 连接 ， 每 种 贷款 
都 有 各 自 的 利率 。( 因为 self.paid 在 初始 化 时 使 用 的 是 带 有 一 个 元 素 的 列表 ， 所 以 其 中 的 元 素 
数量 要 比 已 经 发 生 的 还 款 次 数 多 1。 因 此 ，makePayment 方 法 要 比较 len(self.paid) 和 
self.teaserMonth + 1。) 
































class Fixed(Mortgage) : 
def _ init (self, loan, r, months): 
Mortgage.__init_ (self, loan, r, months) 
self.legend = 'Fixed, ' + str(round(r*160, 2)) + '%' 


class FixedwithPts(Mortgage) : 
def _ init (self, loan, r, months, pts): 
Mortgage._ init (self, loan, r, months) 
self.pts = pts 
self.paid = [loan*(pts/1606)] 
self.legend = "Fixed， ' + str(round(r*160, 2)) + '%, '\ 
+ str(pts) + ”points 


class TwoRate(Mortgage): 
def _ init (self, loan, r, months, teaserRate, teaserMonths): 
Mortgage.__init (self, loan, teaserRate, months) 
self.teaserMonths = teaserMonths 
self.teaserRate = teaserRate 
self.nextRate = r/12 
self.legend = str(teaserRate*100)\ 
+ '% for ' + str(self.teaserMonths)\ 
+ ' months, then ' + str(round(r*1606, 2)) + '%' 
makePayment(self): 
if len(self.paid) == self.teaserMonths + 1: 
self.rate = self.nextRate 
self.payment = findPayment(self.outstanding[-1]， 
self.rate， 
self.months - self.teaserMonths) 


de 


-上 


Mortgage.makePayment(self) 











图 8-10 ”抵押 借款 子 类 
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给 定 一 个 参数 样本 集合 后 ， 可 以 使 用 








图 8-11 中 的 函数 计算 并 输出 每 种 抵押 贷款 的 总 成 本 。 矣 


数 首先 为 每 种 类 型 的 贷款 创建 一 个 实例 , 然后 对 于 给 定 的 贷款 年 份 期 限 计 算 每 月 还 款 金额 , 最 后 


输出 每 种 贷款 的 还 款 总 金额 。 





def compareMortgages(amt, years, fixedRate, pts, ptsRate, 
varRate1, varRate2, varMonths): 
totMonths = years*12 
fixed1 = Fixed(amt, fixedRate, totMonths) 


fixed2 = FixedWithpts(amt, ptsRate, totMonths, pts) 
twoRate = TwoRate(amt, varRate2, totMonths, varRate1, varMonths) 
morts = [fixed1, fixed2, twoRate] 


for m in range(totMonths): 
for mort in morts: 
mort.makePayment() 
for m in morts : 
print(m) 
print(' Total payments 


$' + str(int(m.getTotalpaid()))) 
compareMortgages(amt=26060060,，years=306,， fixedRate=0.067， 
pts 3.25，ptsRate=6.65，VvarRate1=6.645， 


VvarRate2=6.995，varMonths=48) 











图 8-11 各 种 抵押 贷款 评估 
请 注意 ， 调 用 compareMortgage 函 数 时 ， 我 们 使 用 的 是 关键 字 参 数 ， 而 不 是 位 置 参 数 。 























因为 compareMortgage 孙 数 的 形 参 比较 多 ,使 用 关键 字 参 数 为 每 个 形式 参数 提供 实际 参数 值 
比较 容易 。 





运行 图 8-11 中 的 代码 ， 会 输出 以 下 结果 : 


Fixed，7.6% 
Total payments = $4790617 
Fixed，5.6%，3.25 points 
Total payments = $393611 
4.5% for 48 months, then 9.5% 
Total payments = $551444 


结果 一 目 了 然 ， 确 凿 无 疑 。 浮 动 利 率 的 贷款 是 最 差 的 选择 〈 对 于 





二 人 


借款 人 而 不 是 出 借 人 )， 带 

















有 点 数 的 国定 利率 贷款 的 总 成 本 是 最 少 的 。 
贷款 的 唯一 指标 。 例 如 ,如果 一 个 借款 


支付 更 多 还 款 ， 以 减轻 初期 的 还 款 压力 。 
这 个 例子 告诉 我 们 , 不 要 只 看 一 个 简 身 











人 的 未 来 预期 收入 会 大 大 提高 , 那么 他 可 能 更 愿意 在 远 


但 我 们 需要 指出 的 重要 一 点 是 ,总 成 本 不 是 评价 抵押 
明 




















的 数字 ， 而 应 该 知道 还 款 金额 如 何 随时 间 变 化 。 这 个 


例子 还 告诉 我 们 , 程序 应 该 能 够 生成 一 些 图形 , 来 显示 抵押 贷款 随时 间 发 生 的 变化 。 我 们 会 在 11.2 








节 解 决 这 个 问题 。 
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设计 与 开发 程序 时 ,我们 需要 考虑 的 最 重要 的 一 点 就 是 , 程序 的 结果 必须 正确 。 我 们 希望 程 
序 能 正确 计算 银行 余额 ,汽车 喷 油 嘴 能 喷 出 适量 的 燃料 。 不管 是 飞机 还 是 操作 系统 ,我 们 都 不 希 
望 它们 发 生 事故 。 

有 时 候 , 性 能 也 是 正确 性 的 一 个 重要 方面 ,特别 是 对 于 需要 实时 运行 的 程序 ， 比 如 飞机 上 的 
障碍 预警 程序 需要 在 遭遇 障碍 之 前 发 出 警告 。 性 能 也 会 影响 很 多 非 实 时 程序 的 使 用 效果 。 评价 数 
据 库 系 统 的 效用 时 ,每 分 钟 完成 的 事务 数量 是 一 个 重要 的 指标 。 在 智能 手机 上 , 用户 会 关心 启动 
一 个 应 用 需要 多 少时 间 。 生 物 学 家 则 关心 系统 进化 推理 计算 会 持续 多 久 。 

编写 高 效 程序 并 不 容易 ,最 简单 直接 的 方法 一 般 都 不 是 最 有 效率 的 。 有 效 的 算法 一 般 都 会 使 
用 一 些 巧妙 的 技巧 , 这 使 得 它们 非常 难以 理解 。 结果 经 常 就 是 , 程序 员 努 力 地 减少 了 计算 复杂 度 ， 
却 增加 了 概念 复杂 度 。 为 了 以 合理 的 方式 提高 程序 效率 , 我 们 应 该 知道 如 何 估 计 一 个 程序 的 计算 
复杂 度 ， 这 就 是 本 章 的 主要 内 容 。 


9.1 思考 计算 复杂 度 


请 回答 这 个 问题 “运行 以 下 函数 需要 多 少时 间 ? ” 


def f(i): 
""" 假 设 i 是 个 整数 并 且 i >= @""" 
answer = 1 
while i >= 1: 
answer *= i 
i -= 1 
return answer 


我 们 可 以 使 用 一 些 输 入 来 运行 程序 并 计时 , 但 结果 没有 太 大 意义 , 因为 这 样 做 的 结果 依赖 于 以 下 
几 个 因素 : 
口 运行 程序 的 计算 机 性 能 ; 
口 计算 机 上 Python 系 统 的 效率 ; 
口 输入 值 。 

我 们 可 以 使 用 一 种 更 抽象 的 时 间 量 度 来 解决 前 面 两 个 问题 。 不 再 使 用 毫秒 测量 时 间 , 而 是 以 
程序 执行 的 基本 步 数 为 单位 进行 测量 。 
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为 简单 起 见 ， 我 们 使 用 随机 存 取 机 作为 计算 模型 。 在 随机 存 取 机 中 ， 步 数 是 顺序 执行 的 ， 每 
次 执行 一 步 。 一 步 指 的 是 一 个 需要 固定 时 间 量 的 操作 ， 比 如 将 变量 绑 定 到 对 象 、 做 一 次 比较 、 
执行 一 次 代数 运算 或 访问 内 存 中 的 对 象 。 

既然 我 们 已 经 使 用 了 一 种 更 抽象 的 方式 来 表示 时 间 , 下 面 就 解决 对 输入 值 的 依赖 问题 。 不 再 
用 一 个 独立 的 数值 表示 时 间 复 杂 度 ,而 是 将 时 间 复 杂 度 与 输入 的 规模 联系 起 来 。 这 样 ， 比 较 两 种 
算法 的 运行 时 间 如 何 随 着 输入 规模 的 增加 而 增加 ， 即 可 比较 两 种 算法 的 效率 。 

当然 ， 算 法 的 实际 运行 时 间 不 仅 依赖 于 输入 规模 ， 还 依赖 于 具体 的 输入 值 。 例 如 ,考虑 以 下 
代码 中 实现 的 线性 搜索 算法 : 


def linearSearch(L, x): 
for e inL: 
if e == X: 
return True 
return False 


假设 ! 是 一 个 包含 100 万 个 元 素 的 列表 ， 我 们 看 一 下 函数 调用 linearSsearch(L，3)。 如 果 上 L 
中 的 第 一 个 元 素 是 3， 那么 linearSsearch 几 乎 会 立刻 返回 True。 男 一 方面 ， 如 果 3 不 在 L 中 ,那么 
linearSearch 就 必须 在 返回 False 之 前 ， 检 查 所 有 100 万 个 元 素 。 

般 而 言 ， 我 们 需要 考虑 三 种 常见 的 情形 。 

口 最 佳 情 形 运行 时 间 是 在 输入 最 有 利 的 情况 下 算法 的 运行 时 间 。 也 就 是 说 ， 在 给 定 输入 规 

模 的 情况 下 的 最 短 的 运行 时 间 。 对 于 linearSearch， 最 佳 情形 运行 时 间 与 的 大 小 无 关 。 

口 最 差 情 形 运行 时 间 是 在 给 定 输入 规模 的 情况 下 最 长 的 运行 时 间 。 对 于 linearsearch， 最 

差 情 形 运 行 时 间 与 [的 大 小 成 正比 。 

口 平均 情形 〈 也 被 称 为 期 望 情形 ) 运行 时 间 是 在 给 定 输入 规模 的 情况 下 的 平均 运行 时 间 。 
此 外 ， 如 果 关 于 输入 值 的 分 布 有 一 些 先 验 信息 ( 例如 ， 在 90% 的 情形 下 ，x 在 L 中 )， 也 应 
该 将 这 些 信息 考虑 在 内 。 

人 们 通常 最 关注 最 差 情 形 。 所 有 工程 师 都 相信 墨 菲 定律 : 如 果 事 情 可 能 出 错 , 那 它 就 一 定 会 
出 错 。 最 差 情 形 给 出 了 运行 时 间 的 上 界 。 对 计算 过 程 有 时 间 限 制 的 情况 下 ， 上 界 是 极其 重要 的 。 
对 于 空中 交通 管制 系统 来 说 ,“ 在 大 多 数 时 间 内 ”能 够 对 即将 发 生 的 碰撞 做 出 预警 显然 不 会 令 人 
满意 。 

下 面 是 一 个 使 用 迭代 实现 的 阶乘 函数 ， 我 们 看 看 它 的 最 差 情 形 运 行 时 间 

def fact(n): 

"" "假设 n 是 自然 数 
返回 nl 

answer = 1 

while n > 1: 


n -= 1 
return answer 





















































































































































Qz 现代 计算 机 的 更 精确 模型 应 该 是 并 行 随机 存 取 机 。 但 是 ， 这 会 增加 算法 分 析 的 复杂 度 ， 而 且 也 不 会 给 结果 
要 的 本 质 上 的 区 别 。 
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运行 这 个 程序 所 需 的 步 数 应 该 是 2( 赋值 语句 需要 1 步 ，return 语 句 需 要 1 步 ) + Sm ( while 
语句 中 的 测试 需要 1 步 ，while 循 环 中 的 第 一 个 赋值 语句 需要 2 步 ， 第 二 个 赋值 语句 也 需要 2 步 )。 
所 以 ， 如 果 n 等 于 1000， 那 么 函数 大 概 需 要 执行 3002 步 。 

非常 明显 , n 变 大 时 ,纠结 于 5n 和 5n+2 之 间 的 区 别 就 有 点 傻 了 。 所 以 , 我们 推测 运行 时 间 时 ， 
通常 会 忽略 加 法 中 的 常数 。 而 乘法 中 的 常数 则 不 同 ，1000 步 和 5000 步 的 差别 显然 很 大 ， 所 以 乘法 
因子 会 非常 重要 。 对 于 一 个 搜索 引 警 来 说 ， 执 行 一 次 搜索 需要 0.5 秒 还 是 2.5 秒 可 能 就 决定 了 人 们 
会 使 用 这 个 搜索 引擎 ， 还 是 转向 它 的 竞争 对 手 。 

另 一 方面 ， 比 较 两 种 不 同 的 算法 时 ， 即 使 是 乘法 常数 也 可 以 忽略 ， 这 种 情况 也 很 常见 。 回 忆 
一 下 ,在 第 3 章 中 我 们 介绍 了 求 一 个 浮 点 数 的 平方 根 近 似 值 的 两 种 算法 : 穷 举 法 和 二 分 查找 法 。 
图 9-1 和 图 9-2 分 别 给 出 了 基于 这 两 种 算法 的 函数 实现 。 









































def squareRootExhaustive(x, epsilon): 

""" 假 设 x 和 epsilon 都 是 正 的 浮 点 数 ， 并 有 epsilon < 1 
返回 一 个 y， 使 y*y 与 X 的 差 小 于 epsilon""" 

step = epsilon**2 

ans = 0.6 

while abs(ans**2 - x) >= epsilon and ans*ans <= X: 
ans += step 

if ans*ans > Xx: 
raise ValueError 

return ans 


























图 9-1 ”使 用 穷 举 法 求 近 似 平方 根 








def squareRootBi(x, epsilon): 

""" 假 设 x 和 epsilon 都 是 正 的 浮 点 数 ， 并 有 epsilon < 1 
返回 一 个 y， 使 y*y 与 x 的 差 小 于 epsilon""" 

low = 6.6 

high = max(1.6，X) 

ans = (high + Low)/2.6 

while abs(ans**2 - x) >= epsilon: 
if ans**2 < x: 





low = ans 
else: 
high = ans 


ans = (high + Low)/2.6 
return ans 























图 9-2 使 用 二 分 查找 法 求 近似 平方 根 


我 们 可 以 知道 ， 对 于 很 多 x 和 epsilon 的 组 合 来 说 ， 穷 举 法 太 慢 了 , 已 经 变 得 不 可 接受 。 例 
如 ，squareRootExhaustive(1686，6.9661) 大 概 需 要 while 循 环 的 10 亿 次 迭代 才能 求 出 结果 。 相 
反 ，squareRootBi(166，68.6661) 只 需 20 次 稍微 复杂 的 while 循 环 迭 代 就 可 以 求 出 结果 。 和 迭代 次 
数 相差 如 此 之 大 时 ,循环 中 有 几 次 操作 真 的 已 经 不 重要 了 。 也 就 是 说 ， 乘 法 常数 可 以 忽略 。 

















106 第 9 章 算法 复杂 度 简介 





9.2 渐 近 表示 法 


我 们 使 用 渐 近 表示 法 讨论 算法 运行 时 间 与 输入 规模 之 间 的 关系 。 因 为 对 于 规模 较 小 的 输入 ， 
几乎 所 有 算法 都 足够 高 效 ， 所 以 通常 对 于 规模 特别 大 的 输入 , 我 们 才 会 担心 算法 的 效率 ,这 是 我 
们 研究 算法 复杂 度 的 基本 动机 。 作 为 一 种 对 “特别 大 ”的 表示 方法 , 渐 近 表示 法 描述 了 输入 规模 
趋 近 于 无 穷 大 时 的 算法 复杂 度 。 

举例 来 说 ， 看 一 下 图 9-3 中 的 代码 。 





如 果 假设 执 


项 对 应 着 在 般 套 的 for 循 环 中 执行 两 个 语句 需要 花费 的 时 间 。 因 此 ,调用 f(16) 会 输出 以 下 结果 : 























def f(x): 
"mn 假 设 X 是 正 整 数 """ 
ans = 6 


# 常 数 时 间 循 环 
for i in range(1666) : 
ans += 1 
print('Number of additions so far', ans) 
#X 时 间 和 循环 
for i in range(x): 
ans += 1 
print('Number of additions so far', ans) 
#X**2 时 间 的 吝 套 循环 
for i in range(x): 
for j in range(x): 
ans += 1 
ans += 1 
print('Number of additions so far', ans) 
return ans 














图 9-3” 渐 近 复杂 度 




















行 每 行 代码 需要 一 个 单位 时 间 ,那么 这 个 函数 的 运行 时 间 可 以 描述 为 1000+x+ 
2x”。 常 数 1000 对 应 着 第 一 个 循环 执行 的 次 数 。x 项 对 应 着 第 二 个 循环 执行 的 次 数 。 最 后 ，2x” 











Number of additions so far 1666 
Number of additions so far 1616 
Number of additions so far 1216 


调用 f(1666) 会 输出 以 下 结果 : 





Number of additions so far 1666 
Number of additions so far 2666 
Number of additions so far 26602066 


对 于 比较 小 的 x 值 ， 常 数 项 在 结果 中 占有 特别 大 的 比例 。 如 果 x= 10， 那 么 超过 80% 的 步 数 都 





























是 第 一 个 循环 产生 的 ; 但 是 ， 如 果 x = 1000， 那 么 前 两 个 循环 产生 的 步 数 大 约 各 占 总 数 的 0.05%; 





如 果 x = 1 000 000， 那 么 第 一 个 循环 只 占 总 时 间 的 0.00000005%， 第 二 个 循环 


只 占 0.00005%。 总 


共 2 000 001 001 000 步 中 ， 有 2 000 000 000 000 步 用 在 了 内 层 for 循 环 中 的 代码 上 。 
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很 明显 ,代码 有 一 个 大 规模 的 输入 时 ， 只 需 考 虑 内 层 循环 ， 即 二 次 项 ,就 可 以 得 到 一 个 运行 
时 间 的 有 意义 的 表示 。 这 个 循环 的 步 数 是 2x?, 不 是 x*， 这 一 点 我 们 需要 考虑 吗 ?” 如 果 计 算 机 每 秒 
执行 大 概 1 亿 步 , 那么 计算 出 /大约 需 要 5.5 小 时 。 如果 我 们 能 将 复杂 度 降低 到 x?, 那 就 大 约 需 要 2.25 
小 时 。 在 任何 一 种 情况 下 ， 结 论 都 是 一 样 的 : 我 们 需要 找到 一 个 更 加 有 效 的 算法 。 

通过 上 面 的 分 析 ， 我 们 可 以 使 用 以 下 规则 描述 算法 的 渐 近 复杂 度 : 

口 如 果 运 行 时 间 是 一 个 多 项 式 的 和 ， 那 么 保留 增长 速度 最 快 的 项 ， 去 掉 其 他 各 项 ; 
口 如 果 剩 下 的 项 是 个 乘积 ， 那 么 去 掉 所 有 常数 。 

最 常用 的 渐 近 表示 法 称 为 “大 0O” 表 示 法 "。 大 0 表示 法 可 以 给 出 一 个 函数 渐 近 增长 (通常 称 
为 增长 级 数 ) 的 上 界 。 例 如 ， 从 渐 近 的 意义 上 说 ， 公 式 ftx) Ee O(x”) 表 示 函 数 [ 的 增长 不 会 快 于 二 次 
多 项 式 x 。 

与 很 多 计算 机 科学 家 一 样 ， 我 们 经 常会 使 用 “fx) 的 复杂 度 是 O(x”)” 这 样 的 句子 滥用 大 O 表 
示 法 。 这 人 句 话 的 意义 是 ， 在 最 差 情形 下 ，/ 会 运行 O(x”) 步 。 一 个 函数 的 运行 步 数 “在 Ox”) 内 ”和 
“是 OQ(x*)” 之 间 的 区 别 很 微妙 ， 但 非常 重要 。 如 果 我 们 说 fx)& O(x”)， 那 么 -的 最 差 情 形 运 行 时 间 
也 可 以 明显 小 于 Ox )。 

如 果 我 们 说 (x) 的 复杂 度 是 O(x”)， 那 么 其 实 是 在 暗示 x 既是 渐 近 最 差 情形 运行 时 间 的 上 界 ， 
也 是 其 下 界 。 这 被 称 为 紧 界 。” 


9.3 一 些 重要 的 复杂 度 
下 面 列 出 了 一 些 最 常用 的 大 O 表 示 法 实例 。n 表 示 子 数 的 输入 规模 。 
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口 O(logn) 表 示 对 数 运行 时 间 。 

口 O(n) 表 示 线 性 运行 时 间 。 

口 O(nlogn) 表 示 对 数 线 性 运行 时 间 。 

口 O(n 多 表示 多 项 式 运 行 时 间 ， 注 意 f 是 常数 。 

口 O(c) 表 示 指 数 运行 时 间 ， 这 时 常数 c 为 底数 ， 复 杂 度 为 c 的 z 次 方 。 


9.3.1 常数 复杂 度 


常数 复杂 度 的 意义 是 ， 渐 近 复 杂 度 与 输入 规模 无 关 。 这 样 的 程序 一 般 没 有 什么 太 大 的 价值 ， 
但 在 所 有 程序 中 ,都 有 一 些 代码 片段 (如 求 Python 列表 的 长 度 ， 或 计算 两 个 浮 点 数 的 积 ) 可 以 归 
于 此 类 。 常数 运行 时 间 并 不 意味 着 代码 中 没有 循环 或 递归 调用 , 但 确实 可 以 说 明 迭 代 和 递归 调用 
的 次 数 与 输入 规模 无 关 。 






































QD Big O 这 个 词 是 由 20 世 纪 70 年 代 计 算 机 科学 家 高 德 纳 引 入 这 个 领域 的 。 他 之 所 以 选择 希腊 字母 Omicron， 是 因为 从 
19 世 纪 末期 开始 ， 数 论 学 家 就 已 经 使 用 这 个 字母 表示 相关 概念 了 。 
@) 在 计算 机 科学 中 ， 有 些 喜 欢 咬文嚼字 的 “ 老 学 究 ”会 用 大 写 的 Theta (9 ) 而 不 是 大 0。 
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9.3.2 ”对 数 复杂 度 


对 于 这 种 函数 的 复杂 度 来 说 ， 它 的 增长 速度 至 少 是 某 个 输入 的 对 数 。 例 如 , 二 分 查找 的 复杂 
度 就 是 待 搜索 列表 的 长 度 的 对 数 。( 我 们 会 在 第 10 章 介绍 二 分 查找 及 其 复杂 度 。) 顺便 说 一 下 ， 
我 们 不 关心 对 数 的 底数 , 因为 对 于 某 个 对 数 来 说 , 使 用 另 一 个 底数 的 区 别 只 相当 于 将 原来 底数 的 
对 数 乘 以 一 个 常数 。 例 如 ，O(logs(x)) = O(logs(x)*log10o(X))。 很 多 有 趣 的 函数 都 具有 对 数 复杂 度 。 
例如 : 


def intToStr(i): 
""" 假 设 i 是 非 负 整数 
返回 一 个 表示 i 的 十 进 制 字符 囊 """ 
digits = '6123456789， 
if i == 6: 
return "6 
result = "" 
while i > 6: 
result = digits[i%16] + result 
i = i//16 
return result 


因为 这 段 代码 中 没有 调用 其 他 函数 和 方法 , 所 以 我 们 只 需 检查 循环 语句 即 可 确定 复杂 度 的 等 
级 。 代 码 中 只 有 一 个 循环 ， 所 以 我 们 只 需 找 出 迭代 次 数 。 和 迭 代 次 数 就 是 一 直 用 i 除 以 10 做 整数 除 
法 ， 在 结果 为 0 之 前 能 够 做 的 整数 除法 的 次 数 。 所 以 ，intTostr 的 复杂 度 是 O(log(i))。 

那么 下 面 这 段 代码 的 复杂 度 呢 ? 


def addDigits(n): 
""" 假 设 n 是 非 负 整数 





























返回 n 中 每 个 数字 之 和 """ 
stringRep = intToStr(n) 
val = 6 


for c in stringRep: 
val += int(c) 
return val 


使 用 intTostr 将 n 转 换 为 字符 串 的 复杂 度 为 O(log(n))，intTosStr 会 返回 一 个 长 度 为 O(log(n)) 
的 字符 串 。for 循 环 会 被 执行 O(len(stringRep)) 次 ， 也 就 是 O(log(n)) 次 。 综 合 以 上 信息 ， 再 假设 将 
一 个 表示 数字 的 字符 转换 为 整数 需要 常数 时 间 ， 那 么 程序 的 运行 时 间 就 与 O(og(n))+O(log(n)) 成 
正比 ， 因 此 复杂 度 为 O(log(n))。 


9.3.3 ”线性 复杂 度 


很 多 处 理 列表 或 其 他 类 型 序列 的 程序 具有 线性 复杂 度 , 因为 它们 对 序列 中 的 每 个 元 素 都 进行 
常数 (大 于 0 ) 次 处 理 。 
例如 : 


def addDigits(s): 
""" 假 设 s 是 字符 事 ， 其 中 每 个 字符 都 是 十 进 制 数 。 
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decimal digit. 
返回 s 中 所 有 数值 之 和 """ 
val = 6 
for c in s: 
val += int(c) 
return val 


我 们 仍然 假设 表示 数字 的 字符 在 常数 时 间 内 被 转换 为 整数 ， 那 么 这 个 函数 的 复杂 度 就 与 s 的 
长 度 成 线性 关系 ， 也 就 是 O(len(s))。 
当然 ， 并 非 必 须 具有 循环 语句 的 程序 才 有 线性 复杂 度 。 看 下 面 的 代码 : 
def factorial(x): 
'" "假设 X 是 正 整数 
返回 X1 
if x == 1: 
return 1 
else: 
return x*factorial(x-1) 


这 段 代码 中 没有 循环 语句 ,所 以 要 想 知道 它 的 复杂 度 , 我 们 必须 知道 它 进行 了 多 少 次 递归 调 
用 。 调 用 的 序列 很 简单 : 

factorial(x), factorial(x-1), factorial(x-2)，。。。 ，factorial(1) 

这 个 序列 的 长 度 就 是 这 个 函数 的 复杂 度 ， 正 是 OQ)。 

至 此 为 止 ， 我 们 讨论 的 都 是 代码 的 时 间 复 杂 度 。 如 果 算 法 使 用 的 空间 是 固定 的 , 那么 没有 什 
么 问题 , 但 上 面 的 阶乘 实现 却 不 具有 这 个 特性 。 正 如 我 们 在 第 4 章 中 讨论 过 的 , 每 次 对 factorial 
的 递归 调用 都 会 将 内 存 空间 分 配给 一 个 新 的 栈 帧 ， 这 个 栈 帧 会 一 直 占 用 内 存 , 直至 调用 返回 。 到 
最 深层 次 的 递归 调用 时 ， 代 码 会 分 配 x 个 栈 帧 ， 所 以 代码 的 空间 复杂 度 也 是 OCo。 

与 时 间 复 杂 度 不 同 , 要 想 感 觉 到 空间 复杂 度 的 影响 比较 困难 。 对 于 用 户 来 说 , 程序 运行 完成 
需要 1 分 钟 还 是 2 分 钟 是 明显 能 够 感觉 到 的 , 但 程序 使 用 的 内 存 是 1 兆 字 节 还 是 2 兆 字 节 则 完全 无 法 
觉察 。 这 就 是 时 间 复 杂 度 通常 比 空间 复杂 度 更 受 关注 的 原因 。 运 行程 序 所 需 的 存储 空间 超过 了 计 
算 机 内 存 时 ， 空 间 复杂 度 才能 更 受 关注 。 


9.3.4 ”对 数 线性 复杂 度 


这 种 复杂 度 比 前 面 几 种 复杂 度 稍微 复杂 一 点 , 它 是 两 个 项 的 乘积 ,每 个 项 都 依赖 于 输入 的 规 
模 。 这 个 复杂 度 非常 重要 ， 因为 很 多 实用 算法 的 复杂 度 都 是 对 数 线性 的 。 最 常用 的 对 数 线性 复杂 
度 算法 可 能 是 归并 排序 法 ， 它 的 复杂 度 是 O(nlog(n))， 这 里 的 n 是 待 排 序列 表 的 长 度 。 我 们 会 在 第 
10 章 介绍 这 种 算法 并 分 析 其 复杂 度 


9.3.5 多项式 复 杂 度 


最 常见 的 多 项 式 算法 复杂 度 是 平方 复杂 度 , 也 就 是 说 ,算法 复杂 度 按 照 输 入 规模 的 平方 增长 。 
例如 ， 图 9-4 中 实现 子 集 测试 的 函数 。 





























































































































程序 每 次 执行 到 内 层 循环 时 ， 内 层 循环 都 要 执行 O(len(L2)) 次 。E 





def isSsubset(L1, L2): 
"假设 Ll1 和 L2 是 列表 。 
如 果 L1 中 的 每 个 元 素 也 在 L2 中 出 现 ， 则 返回 True 
否则 返回 False。 
for el in L1: 
matched = False 
for e2 in L2: 
if el == e2: 
matched = True 
break 
if not matched : 
Peturn False 
return True 











图 9-4” 子 集 测 试 


函数 isSubset 要 执行 外 部 循 


环 O(len(L1)) 次 ， 所 以 执行 到 内 层 循环 的 次 数 也 是 Oden(L1))。 因 此 ， 取 数 issubset 的 复杂 度 是 
O(len(L1))*O(en(L2)), 

















9 看 











下 图 9-5 中 的 ijntersect 浮 数 。 鼻 








第 一 部 分 代码 建立 可 能 包含 重复 元 素 的 列表 , 它 的 运行 





时 间 明 显 是 O(len(L1))*O(en(L2))。 第 二 部 分 代码 建立 没有 重复 元 素 的 列表 , 乍 看 上 去 , 它 的 运行 
时 间 与 tmp 的 长 度 成 线 怕 


的 每 


个 元 素 ， 因 此 它 








的 复杂 度 是 Olen(resulD)， 所 以 第 











关系 ， 但 其 实 不 是 。 测 试 条 件 e not in result 实 际 上 会 检查 result 中 
二 部 分 代码 的 复杂 度 是 





代 


O(len(type))*O(len(resul?))。 但是， 因为 result 和 tmp 的 长 度 由 L1 和 L2 中 长 度 较 小 的 一 个 决定 ， 又 


为 我 们 可 以 忽略 加 法 项 ， 所 以 可 以 忽略 O(len(type))*O(len(resulD))。 这 样 ， 

















林 度 就 是 O(len(L1))*O(len(L2))。 








def intersect(L1，L2) : 
"" 假 设 L1 和 L2 是 列表 
返回 一 个 不 重复 的 列表 ， 为 Ll1 和 L2 的 交集 """ 
E# 建 立 一 个 包含 相同 元 素 的 列表 
tmp = [] 
for el in L1: 
for e2 in L2: 
if el == e2: 
tmp.append(el1) 
break 
# 建 立 一 个 不 重复 的 列表 
result = [] 
for e in tmp: 
if e not in result: 
result.append(e) 
return result 








图 9-5” 求 列表 交集 


intersect 函 数 的 复 





9.3.6 ”指数 复杂 度 














我 们 之 后 将 会 看 到 ,因为 内 在 的 原因 ,很 多 重要 问题 的 复杂 度 都 是 指数 的 。 也 就 是 说 ， 要 想 


彻底 解决 这 些 问 题 ， 所 需 的 时 间 要 随 输入 规模 的 指数 而 增长 。 这 非常 精 站 



































¢ ， 因 为 编写 














个 运行 时 


间 以 指数 增长 的 程序 对 我 们 来 说 通常 是 得 不 偿 失 的 。 举 例 来 说 ， 看 一 下 图 9-6 中 的 代码 。 








函数 genPowerset(L) 返 回 一 个 列表 的 列表 ， 包 含 L 中 元 素 所 有 可 能 的 组 合 。 例 如 ， 如 果 !L 是 


['x' ，'y']， 那 么 [的 震 集 就 是 包含 [ ]、['x']、['y'] 和 ['x'，'y'] 这 些 列表 的 列表 。 


def getBinaryRep(n, numDigits): 
""" 假 设 n 和 numDigits 为 非 负 整数 
返回 一 个 长 度 为 humDigits 的 字符 囊 , 为 n 的 二 进 制 表 
result = "" 
while n > 6: 
result = str(n%2) + result 
n = n//2 
if len(result) > numDigits : 
raise ValueError( "not enough digits') 
for i in range(numDigits - len(result)): 
result = "6' + result 
return result 


def genPowerset(L) : 
"" "假设 L 是 列表 
返回 一 个 列表 ， 包 含 L 中 元 素 所 有 可 能 的 集合 。 例 如 ， 
如 果 
L=[1，2]， 则 返回 的 列表 包含 元 素 [1]、[2] 和 [1， 
2 
powerset = [] 
for i in range(0, 2**]len(L)): 
binstr = getBinaryRep(i, len(L)) 


subset = [] 
for j in range(len(L)): 
if binSstr[j] == "1': 


subset.append(L[j]) 
powerset.append(subset) 
return powerset 








图 9-6 ”生成 军 集 

















这 个 算法 有 点 不 好 理解 。 假设 有 一 个 包含 a 个 元 素 的 列表 , 我 们 可 以 使 用 一 个 字符 串 表 示 这 wm 
个 元 素 的 任意 一 个 组 合 , 这 个 字符 串 由 若干 个 0 和 1 组 成 , 长度 为 n, 字符 串 中 的 1 表示 组 合 包含 这 
个 元 素 ，0 表 示 不 包含 这 个 元 素 。 全 是 0 的 字符 串 表 示 组 合 不 包括 任意 一 个 元 素 ， 全 是 1 的 字符 串 


表示 组 合 包括 所 有 元 素 ，100...001 表 示 组 合 包括 第 一 个 元 素 和 最 后 一 个 元 素 ， 以 此 类 推 。 





























于 是 ， 可 以 按照 以 下 步骤 生成 长 度 为 的 列表 L 的 所 有 子 列表 : 
口 生成 所 有 nn 位 的 二 进 制 数 ， 也 就 是 从 0 到 2" 之 间 的 所 有 二 进 制 数 ; 
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口 对 于 这 2”+1 个 二 进 制 数 中 的 每 一 个 数 b, 如 果 b 中 某 一 位 为 1, 那么 就 从 L 中 选择 索引 值 对 应 
这 一 位 的 元 素 ， 由 此 生成 一 个 列表 。 举 例 来 说 ， 如 果 L 是 ['x'，'y'] 并 且 b 是 691， 那 么 就 
生成 列表 ['y']。 

如 果 有 一 个 列表 ， 其 中 的 元 素 是 字母 表 中 的 前 10 个 字母 ， 我 们 先 在 这 个 列表 上 试 运行 
genPowerset 。 程 序 很 快 结束 ， 生 成 一 个 包含 1024 个 元 素 的 列表 。 下 一 步 ， 在 包含 字母 表 中 前 20 
个 字母 的 列表 上 运行 genPowerset ， 它 会 运行 相当 长 的 时 间 ， 然 后 返回 一 个 大 约 有 100 万 个 元 素 
的 列表 。 如 果 你 使 用 包含 26 个 字母 的 列表 运行 genPowerset ， 那 么 在 等 待 程序 结束 的 过 程 中 ， 你 
可 能 已 经 氏 昏 欲 睡 ， 除 非 计算 机 在 试图 建立 具有 几 千 万 个 元 素 的 列表 时 耗 尽 了 内 存 。 至 于 在 包含 
所 有 大 写字 母 和 小 写字 母 的 列表 上 运行 genPowerset， 那 更 是 痴人说梦 。 算法 的 第 一 个 步骤 会 生 
成 0(2™ 中 ) 个 二 进 制 数 ， 所 以 算法 的 复杂 度 是 len(7) 的 指数 形式 。 

这 是 否 意 味 着 对 于 指数 复杂 度 的 问题 , 计算 机 就 无 能 为 力 了 呢 ?” 当 然 不 是 。 这 只 能 说 明 对 于 
这 类 问题 , 我 们 只 能 使 用 某 种 算法 找 出 近似 解 , 或 者 说 对 于 这 类 问题 中 的 某 些 特殊 实例 ,我 们 可 
以 求 出 最 优 解 。 这 是 后 面 章节 要 讨论 的 主题 。 


9.3.7 复杂 度 对 比 


在 本 节 中 ， 我 们 会 用 统计 图 直观 表示 各 种 算法 复杂 度 的 含义 。 

图 9-7 中 ， 左 侧 的 统计 图 对 比 了 常数 复杂 度 算法 和 对 数 复杂 度 算 法 的 运行 时 间 增 长 速度 。 请 
注意 ， 即 使 是 对 于 20 这 么 小 的 常数 ， 输 入 规模 也 需要 达到 100 万 左右 ， 两 条 曲线 才 会 相交 。 输 入 
规模 达到 500 万 时 ， 对 数 复 杂 度 算法 所 需 的 时 间 仍 然 很 少 。 由 此 可 知 ， 对 数 复杂 度 算 法 几乎 和 和 常 
数 复杂 度 算法 一 样 优秀 。 

从 图 9-7 中 右 侧 的 统计 图 可 以 看 出 ， 对 数 复杂 度 算 法 与 线性 复杂 度 算 法 之 间 的 区 别 非 常 明显 。 
请 注意 ，X 轴 的 最 大 坐标 只 有 1000。 比 较 常 数 复杂 度 和 对 数 复杂 度 的 算法 时 ， 需 要 一 个 大 规模 的 
输入 才能 看 出 二 者 之 间 的 区 别 , 但 是 , 对 数 复杂 度 和 线性 复杂 度 算法 之 间 的 区 别 只 需 一 个 小 规模 
输入 就 已 经 非常 明显 了 。 对 数 复杂 度 算 法 和 线性 复杂 度 算 法 在 性 能 上 明显 的 区 别 并 不 意味 着 线性 
算法 很 糟糕 ， 实 际 上 ， 多 数 情 况 下 ， 线 性 算法 的 效率 是 完全 可 以 接受 的 。 

常数 (20) 与 对 数 对 数 与 线性 
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图 9-7 常数 、 对 数 和 线性 增长 
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图 9-8 中 左 侧 的 统计 图 展示 了 O(n) 和 O(nlog(n)) 之 间 的 明显 区 别 。 我们 已 经 知道 了 log(n) 的 增长 
十 分 缓慢 ， 所 以 O(nlog(n)) 增 长 如 此 之 快 真是 出 乎 意料 ， 但 别 忘 了 它 是 一 个 乘法 因子 。 我 们 还 应 
该 知道 ， 在 很 多 实际 情况 下 ，O(nlog(n)) 还 是 很 快 的 ， 可 堪 一 用 。 男 一 方面 ， 如 图 9-8 中 右 侧 统计 
图 所 示 ， 与 平方 复杂 度 算法 的 增长 速度 比 起 来 ，O(nlog(n)) 简 直 不 值 一 提 。 
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图 9-8 ”线性 、 对 数 线性 和 平方 增长 


图 9-9 中 两 张 统计 图 是 关于 指数 复杂 度 的 。 在 左 侧 的 统计 图 中 ，Y 轴 的 坐标 从 0.0 到 1.2， 但 是 
左上 方 xle361 表 示 Y 轴 上 的 每 个 单位 都 要 乘 以 10 吕 。 所 以 ， 图 中 Y 值 的 范围 大 约 是 0~1.1*10301 。 
但 是 ， 在 图 9-9 左 侧 的 图 中 ， 似 乎 看 不 到 任何 曲线 。 因 为 指数 函数 增长 得 太 快 ， 以 至 于 相对 于 最 
高 点 的 Y 值 ( 它 决 定 了 Y 轴 的 规模 ) 来 说 ， 指 数 曲线 上 前 面 那些 点 ( 以 及 平方 曲线 上 所 有 的 点 ) 
的 Y 值 几乎 与 0 没有 区 别 。 

图 9-9 中 右 侧 的 统计 图 通过 在 Y 轴 上 使 用 对 数 标 度 解 决 了 这 个 问题 。 现在 可 以 清楚 地 看 到 ,， 除 
了 那些 规模 特别 小 的 输入 ， 指 数 算法 都 是 不 现实 的 。 

请 注意 ， 统 计 图 使 用 对 数 标 度 时 ， 指 数 曲 线 看 上 去 就 像 一 条 直线 。 之 后 会 详细 介绍 。 
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图 9-9 ”平方 和 指数 增长 
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我 们 虽然 花费 大 量 篇 幅 讨论 程序 效率 , 但 目的 不 是 使 你 成 为 设计 高 效 程序 的 专家 。 关 于 这 个 
问题 ， 有 很 多 大 部 头 的 图 书 ( 其 中 一 些 甚至 非常 引人入胜 ) 进行 了 专门 的 讨论 。" 第 9 童 介绍 了 一 
些 构成 复杂 度 分 析 的 基本 概念 。 在 本 章 中 , 我 们 会 使 用 这 些 概 念 研究 几 种 经 典 算法 的 复杂 度 。 本 
章 的 目的 是 帮助 你 建立 某 种 通用 直觉 ， 以 解决 算法 效率 方面 的 问题 。 学 习 本 章 内 容 之 后 ,你 应 该 
明白 为 什么 有 些 程序 皮 眼 之 间 就 可 以 完成 , 有些 程 序 却 需要 运行 到 第 二 天 , 而 有 些 程序 在 你 有 生 
之 年 都 不 会 结束 运行 。 

我 们 在 本 书 中 介绍 的 第 一 个 算法 是 暴力 穷 举 法 。 当 时 我 们 声称 ， 现 代 计 算 机 的 速度 太 快 了 ， 
以 至 于 开发 那些 巧妙 的 算法 经 常 就 是 浪费 时 间 ， 编 写 既 简单 又 明显 正确 的 代码 才 是 正道 。 

然后 我 们 遇 到 了 一 些 问题 〈 例 如 ， 求 一 个 多 项 式 的 根 的 近似 值 )， 这 时 搜索 空间 太 大 ， 以 至 
于 暴力 算法 已 经 失效 。 这 促使 我 们 考虑 更 有 效率 的 算法 ， 比 如 二 分 查找 法 和 牛顿 - 拉 弗 森 法 。 我 
们 的 主要 观点 是 ， 程 序 效 率 的 关键 是 好 的 算法 ， 而 不 是 靠 小 聪明 在 编码 时 要 些 花 招 。 

在 科学 领域 ( 物理 学 、 生 命 科 学 和 社会 科学 ) 中 , 为 了 验证 一 个 关于 数据 集 的 假设 是 否 合理 ， 
程序 员 经 常 先 快速 地 编码 实现 一 个 简单 算法 , 然后 使 用 少量 数据 运行 该 算法 。 如 果 结 果 令 人 鼓舞 ， 
那么 接 下 来 就 要 开发 可 以 运行 ( 可 能 要 一 次 又 一 次 地 运行 ) 在 大 规模 数据 集 上 的 程序 实现 , 艰苦 
的 工作 就 开始 了 ， 这 种 实现 要 在 高 效 算法 的 基础 上 才能 完成 。 

高 效 算法 的 实现 非常 困难 。 对 于 那些 成 功 的 专业 计算 机 科学 家 来 说 , 整个 职业 生涯 中 可 能 只 
会 开发 出 一 种 算法 一 一 如 果 他 们 足够 幸运 。 多 数 人 永远 不 会 开发 出 新 算法 。 我 们 要 做 的 是 ,学 会 
在 面 对 问 题 时 将 复杂 性 减 到 最 小 ， 并 将 它们 转换 成 以 前 已 经 解决 了 的 问题 。 

更 具体 地 说 ， 我 们 需要 : 

口 理解 问题 的 内 在 复杂 度 ; 

口 思考 如 何 将 问题 分 解 成 多 个 子 问题 ; 

口 将 这 些 子 问题 与 已 经 有 高 效 算法 的 其 他 问题 联系 起 来 。 

本 章 给 出 几 个 示例 程序 , 目的 是 让 你 在 算法 设计 方面 具有 一 些 直 觉 性 知识 。 还 有 很 多 算法 可 
以 在 本 书 其 他 章节 中 找到 。 

请 记 住 , 你 并 不 总 是 需要 选择 最 有 效率 的 算法 , 一 个 在 各 方面 都 最 有 效率 的 程序 经 常 是 难以 































































































































































































中 《算法 导论 》 对 于 那些 不 害怕 大 量 数学 理论 的 人 来 说 ， 是 一 本 精彩 绝伦 的 书 。 











10.1 搜索 算法 115 























理解 的 , 我 们 也 没有 必要 去 理解 。 一 般 来 说 ， 比 较 好 的 策略 是 先 用 最 简单 直接 的 方式 解决 手头 的 
问题 ， 再 仔细 测试 找 出 计算 上 的 瓶颈 ， 然 后 仔细 人 研究 造成 瓶颈 的 那 部 分 程序 ， 并 找 出 改善 计算 复 
杂 度 的 方法 。 


10.1 搜索 算法 


搜索 算法 就 是 在 一 个 项 目 集合 中 找 出 一 个 或 一 组 具有 某 种 特点 的 项 目 。 我 们 将 项 目 集合 称 为 
搜索 空间 。 它 可 以 很 具体 ， 比 如 一 组 电子 病历 ; 也 可 以 很 抽象 ， 比 如 所 有 整数 的 集合 。 在 实际 工 
作 中 ， 大 量 问题 都 可 以 转换 为 搜索 问题 。 

本 书 前 面 介绍 过 的 很 多 算法 都 可 以 看 作 搜索 算法 。 在 第 3 章 中 ， 我 们 将 “为 多 项 式 的 根 找 出 
近似 值 ” 这 个 问题 形式 化 为 搜索 问题 ， 并 给 出 三 种 搜索 可 行 解 空 间 的 算法 : 穷 举 法 、 二 分 查找 法 
和 牛顿 - 拉 弗 森 法 。 

本 节 会 研究 两 种 搜索 列表 的 算法 ， 每 种 方法 都 满足 以 下 规范 : 

def search(L, e): 


"" 假 设 L 是 列表 
如 果 e 是 L 中 的 元 素 ， 则 返回 True， 否 则 返回 False""" 


聪明 的 读者 可 能 会 问 ， 这 个 函数 在 语义 上 不 是 和 Python 表 达 式 e in [完全 相同 吗 ? 没 错 ， 就 
是 这 样 。 如 果 我 们 不 关心 判断 “e 是 否 在 L 中 ”时 的 效率 问题 , 那么 只 要 简单 地 使 用 这 个 表达 式 就 
可 以 了 。 


10.1.1 线性 搜索 与 间接 引用 元 素 
Python 使 用 以 下 算法 确定 列表 中 是 否 有 某 个 元 素 : 


for i in range(len(L)): 
if L[i] == e: 
return True 
return False 


如 果 元 素 e 不 在 列表 中 , 那么 算法 就 会 执行 Oden(D) 次 测试 。 也 就 是 说 ， 复 杂 度 至 多 与 [的 长 
度 成 线性 关系 。 为 什么 是 “至 多 ”成 线性 关系 呢 ? 只 有 当 循环 中 的 每 个 操作 都 可 以 在 常数 时 间 内 
完成 时 , 才 是 线性 关系 。 这 就 引发 一 个 问题 : Python 能 否 在 常数 时 间 内 提取 列表 中 的 第 i 个 元 素 ? 
因为 我 们 的 计算 模型 假设 取出 一 个 内 存 地 址 中 的 内 容 是 一 个 常数 时 间 操 作 , 所 以 问题 就 变 成 能 和 否 
在 常数 时 间 内 计算 出 列表 中 第 ;个 元 素 的 地 址 。 

首先 考虑 简单 情形 。 假设 列表 中 的 每 个 元 素 都 是 整数 , 这 意味 着 列表 中 每 个 元 素 的 大 小 都 相 
同 ， 如 4 个 内 存单 位 (4 个 8 位 字 节 ”)。 假设 列表 中 的 元 素 是 连续 存储 的 ， 那么 列表 中 第 i 个 元 素 的 
内 存 地 址 就 是 start+4*i， 这 里 的 start 是 列表 起 始 位 置 的 地 址 。 因 此 ， 我 们 可 以 认为 ，Python 
能 够 在 常数 时 间 内 计算 出 整数 列表 中 第 i 个 元 素 的 地 址 。 


















































































































































@ 保存 整数 的 位 数 ， 通 常 称 为 “ 字 长 ”， 一 般 由 计算 机 硬件 决定 。 
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当然 ， 我 们 知道 Python 列表 可 以 包含 非 int 类 型 的 对 象 ， 而 且 同 一 个 列表 中 对 象 的 大 小 和 类 
型 也 可 以 都 不 同 。 你 可 能 会 认为 这 是 一 个 问题 ， 但 实际 上 不 是 。 

在 Python 中 ， 列 表 被 表示 成 一 个 长 度 (列表 中 对 象 的 数量 ) 和 一 个 固定 长 度 的 对 象 指针 "的 
序列 。 图 10-1 说 明了 指针 的 用 法 。 图 中 的 阴影 区 域 表 示 一 个 包含 4 个 元 素 的 列表 ， 最 左边 的 阴影 
方块 包含 一 个 指向 整数 的 指针 ,表示 列表 长 度 。 其 余 每 个 阴影 方块 都 包含 一 个 指针 ,指向 列表 中 
的 对 象 。 











图 10-1 列表 的 实现 




















如 果 长 度 域 占 4 个 内 存单 元 ， 每 个 指针 〈 其 实 就 是 地 址 ) 占 4 个 内 存单 元 ， 那 么 地 址 start + 4+ 
4 * i 中 保存 的 就 是 列表 中 第 i 个 元 素 的 地 址 。 同 样 ， 这 个 地 址 可 以 在 常数 时 间 内 找到 ， 然 后 使 用 
保存 在 这 个 地 址 中 的 值 就 可 以 访问 第 i 个 元 素 。 访 问 操作 也 可 以 在 常数 时 间 内 完成 。 

这 个 例子 演示 了 计算 中 最 重要 的 实现 技术 之 一 : 间接 引用 。 ”一般 来 说 ， 间 接 引 用 就 是 ， 要 
访问 目标 元 素 时 ， 先 访问 男 一 个 元 素 , 再 通过 包含 在 这 个 元 素 中 的 引用 来 访问 目标 元 素 。 我 们 每 
次 使 用 变量 引用 与 变量 绑 定 的 对 象 时 ,就 是 这 么 做 的 。 当 我 们 使 用 一 个 变量 访问 列表 并 使 用 保存 
在 列表 中 的 引用 访问 另 一 个 对 象 时 ， 实 际 上 进行 了 双重 间接 引用 。” 


10.1.2 ”二 分 查找 和 利用 假设 


回 到 实现 search(L, e) 这 个 问题 ，O(en()) 是 我 们 能 做 到 的 最 好 情况 吗 ? 是 的 ， 如 果 我 们 对 
列表 中 元 素 值 之 间 的 关系 以 及 元 素 的 存储 顺序 一 无 所 知 。 在 最 差 情形 中 ， 我 们 必须 遍历 L 中 的 每 
一 个 元 素 才能 确定 L 是 否 包含 e。 

但 是 假如 我 们 对 元 素 的 存储 顺序 有 所 了 解 呢 ? 例如 , 假设 我 们 知道 一 个 整数 列表 是 按照 升序 
存储 元 素 的 , 那么 可 以 修改 函数 实现 , 搜索 到 一 个 大 于 目标 整数 的 数值 时 , 就 停止 搜索 , 如 图 10-2 
所 示 。 























































































































在 一 些 Python 版 本 中 ， 对 象 指针 是 32 位 的 ， 在 男 一 些 版 本 中 则 是 64 位 的 。 

我 的 字典 将 “间接 ”定义 为 “不 直截了当 的 , 不 公开 的 ， 有 欺骗 性 的 "。 实 际 上 ， 这 个 词 通 党 具有 贬义 。 直 到 1950 
年 ， 计 算 机 科学 家 意识 到 它 可 以 解决 很 多 问题 。 
经 常 有 人 说 :“ 计 算 中 的 任何 问题 都 可 以 通过 添加 另 一 个 间接 层 来 解决 。 经 过 三 层 间 接 引 用 ， 我 们 认为 这 种 说 法 
来 自 DavidJ. Wheeler。Butler Lampson 等 人 的 论文 “Authentication in Distributed Systems: Theory and Practice ”包含 
了 这 种 说 法 ， 论 文 的 一 个 脚注 说 :“Roger Needham 认 为 这 种 说 法 来 自 剑 桥 大 学 的 David Wheeler。” 
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def search(L, e): 
"" "假设 L 是 列表 ， 其 中 元 素 按 升序 排列 。 
ascending order. 
如 果 e 是 L 中 的 元 素 ， 则 返回 True， 否 则 返回 False""" 
for i in range(len(L)): 
if L[i] == e: 
return True 
if L[i] > e: 
return False 
return False 














图 10-2 ”有 序列 表 的 线性 搜索 


这 种 算法 可 以 缩短 平均 运行 时 间 , 但 不 会 改变 最 差 情形 下 的 算法 复杂 度 , 因为 在 最 差 情形 下 
还 是 需要 检查 L 中 的 每 个 元 素 。 

但 是 , 通过 使 用 一 种 称 为 二 分 查找 的 算法 , 我们 可 以 显著 改善 最 差 情形 下 的 复杂 度 ， 就 像 第 
3 章 中 求 浮 点 数 平方 根 近 似 值 时 所 做 的 一 样 。 使 用 二 分 查找 时 ， 我 们 依赖 的 是 浮 点 数 固有 的 全 序 
生 。 现 在 我 们 则 依赖 “列表 有 序 ” 这 个 假设 。 

二 分 查找 的 思路 非常 简单 : 

(1) 选择 一 个 可 以 将 列表 L 大 致 一 分 为 二 的 索引 i; 

(2) 检查 是 否 有 L[i] == e; 

(3) 如 果 不 是 ， 检 查 L[i] 大 于 还 是 小 于 e; 

(4) 根据 上 一 步 的 结果 ， 确 定 在 L 的 左 半 部 分 还 是 右 半 部 分 搜索 e。 

给 定 算 法 结构 之 后 ， 很 显然 ， 实 现 二 分 查找 的 最 简单 直接 的 方式 就 是 使 用 递归 ， 如 图 10-3 所 示 。 
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def search(L, e): 
"mu 假设 L 是 列表 ， 其 中 元 素 按 升 序 排列 。 
ascending order. 
如 果 e 是 [中 的 元 素 ， 则 返回 True， 否 则 返回 False”"" 


def bSearch(L, e, low, high): 
#Decrements high - low 
if high == low: 
return L[low] == e 
mid = (low + high)//2 
if L[mid] == e: 
return True 
elif L[mid] > e: 
if low == mid: #nothing left to search 
return False 
else: 
return bSearch(L, e, low, mid - 1) 





else: 
return bSearch(L, e, mid + 1, high) 


if len(L) == 0: 
return False 
else: 
return bSearch(L, e, 0, len(L) - 1) 











图 10-3 ”递归 二 分 查找 
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图 10-3 中 ， 外 层 函 数 search(L，e) 与 图 10-2 中 的 定义 函数 具有 同样 的 参数 和 规范 。 从 规范 中 
可 知 ， 函 数 会 假设 L 中 的 元 素 是 以 升序 排列 的 。search 函 数 的 调用 者 应 该 确保 满足 这 个 假设 。 如 
果 这 个 假设 没有 被 满足 ， 那么 函数 没有 义务 保证 能 够 正确 运行 。 它 可 能 有 效 ， 也 可 能 骨 演 ,还 可 
能 返回 一 个 错误 的 结果 。 我 们 是 否 应 该 对 search 函 数 进行 修改 , 并 检查 这 个 假设 是 否 被 满足 呢 ? 
这 样 做 虽然 可 以 消除 错误 隐患 , 但 会 违背 使 用 二 分 查找 的 初 囊 ,因为 检查 假设 这 个 操作 本 身 就 会 
带 来 O(en()) 的 复杂 度 。 

像 search 这 样 的 函数 经 常 被 称 为 包装 器 函数 。 这 种 函数 为 客户 代码 提供 了 一 个 非常 易 用 的 接 
口 ， 但 就 是 一 个 外 壳 ， 不 执行 重要 的 计算 ,而 使 用 适当 的 参数 调用 辅助 函数 bsearch。 这 就 引起 
一 个 问题 ,为 什么 不 去 掉 search， 让 客户 代码 直接 调用 bsearch 呢 ?原因 就 在 于 bsearch 中 的 两 
个 参数 low 和 high， 它 们 与 在 列表 中 搜索 一 个 元 素 这 一 抽象 任务 没有 任何 关系 ， 只 是 具体 实现 中 
的 细节 ， 应 该 对 search 的 调用 者 隐藏 。 

下 面 分 析 bsearch 的 复杂 度 。 上 一 市 证 明了 访问 列表 需要 常数 时 间 ， 因 此 ， 如 果 先 不 考虑 递归 调 
用 ,那么 每 个 bsearch 实 例 的 复杂 度 都 是 O(1)。 所 以 ，bsearch 的 复杂 度 仅 仅 依 赖 于 递归 调用 的 次 数 。 

如 果 这 是 一 本 关于 算法 的 书 , 我 就 会 使 用 所 谓 的 递 推 关系 来 进行 详细 分 析 。 但 因为 这 不 是 一 
本 算法 书 ， 所 以 我 会 采用 一 种 不 那么 正式 的 方法 ， 先 从 一 个 问题 开始 :“ 我 们 如 何 知道 程序 会 在 
什么 时 候 结 束 ? ”回忆 一 下 ,在 第 3 章 关 于 while 循 环 时 , 我们 也 问 过 同样 的 问题 。 当 时 通过 一 个 
循环 中 的 递减 函数 回答 了 这 个 问题 ,现在 我 们 也 要 做 同样 的 事 。 在 这 个 上 下 文 环境 中 ,递减 函数 
具有 以 下 性 质 : 

口 它 可 以 将 形 参 绑 定 的 值 映 射 为 一 个 非 负 整 数 ; 

口 当 它 的 值 为 0 时 ， 递 归结 

口 对 于 每 次 递归 调用 ， 递 减 函数 的 值 都 会 小 于 做 出 调用 的 函数 实例 中 的 递减 函数 的 值 。 
bsearch 中 的 递减 函数 是 high - low。search 中 的 if 语 句 保 证 了 第 一 次 调用 bsearch 时 递减 

函数 的 值 至 少 为 8 ( 递减 函数 性 质 1 )。 

进入 bsearch 时 ， 如 果 high - low 正 好 为 98， 那么 函数 就 不 做 任何 递归 调用 ， 只 返回 表达 式 
L[low] == e 的 值 (满足 递减 函数 性 质 2 )。 

函数 bsearch 中 有 两 个 递归 调用 。 一 个 调用 中 的 参数 覆盖 了 mid 左 侧 的 所 有 元 素 ， 另 一 个 调 
用 中 的 参数 覆盖 了 mid 右 侧 的 所 有 元 素 。 在 任何 一 个 调用 中 ，high - low 的 值 都 被 分 为 两 半 ( 满 
足 递 减 函数 性 质 3 )。 

现在 我 们 明白 了 为 什么 递归 会 结束 。 下 一 个 问题 就 是 ， 在 high - low == 6 之 前 ,high - low 
的 值 会 减 半 多 少 次 呢 ? 回忆 一 下 , log 表示 的 是 为 了 达到 x* 值 ,需要 和 自己 相 乘 的 次 数 。 相 反 ， 
如 果 x 被 y 除 了 logy(x) 次 ， 那 么 结果 就 是 1。 这 说 明 high - low 在 等 于 8 之 前 ， 至 多 使 用 整数 除法 减 
半 ]ogs(high -1ow) 次 即 可 。 

最 后 , 我 们 终于 可 以 回答 “二 分 查找 的 算法 复杂 度 是 多 少 ? ”这 个 问题 。 因 为 当 search 调 用 
bsearch 时 ，high - low 的 值 是 len(L) - 1， 所 以 search 函 数 的 复杂 度 为 OU(log(len(Z)))。?” 







































































































































































Q 前 面 研 究 算法 复杂 度 时 ， 对 数 的 底数 是 无 关 的 。 
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实际 练习 : 为 什么 在 第 二 个 递归 调用 中 ,代码 使 用 的 不 是 mid， 而 是 mid + 1? 


10.2 ”排序 算法 


从 上 一 节 可 以 看 到 ,如 果 知 道 列表 是 有 序 的 , 那么 我 们 就 可 以 利用 这 个 信息 大 大 降低 搜索 列 
表 所 需 的 时 间 。 这 是 否 意味 着 在 有 列表 搜索 的 需求 时 ， 应 该 先 排序 再 执行 搜索 呢 ? 

假设 O(sortComplexity(Z)) 表 示 列 表 排 序 的 复杂 度 。 我 们 已 经 知道 搜索 列表 的 时 间 在 OQen(7)) 
之 内 ， 所 以 “是 否 应 该 先 排序 再 搜索 ”的 问题 就 变 成 : sortComplexity(C) + log(len(Z)) 小 于 len(D) 
吗 ? 很 遗憾 , 答案 是 否定 的 。 如 果 不 能 对 列表 中 的 每 个 元 素 至 少 检查 一 次 , 我 们 就 不 可 能 完成 列 
表 排 序 ， 所 以 排序 算法 的 复杂 度 不 可 能 小 于 线性 复杂 度 。 

难道 二 分 查找 只 是 对 我 们 求知 欲 的 一 种 满足 , 却 没 有 任何 实用 价值 吗 ?” 令 人 高 兴 的 是 , 答案 
依然 是 否定 的 。 假设 我 们 希望 对 同一 列表 进行 多 次 搜索 , 那么 在 一 次 列表 排序 上 付出 的 成 本 就 有 
很 大 意义 了 ， 这 个 成 本 可 以 分 挫 在 多 次 搜索 中 。 如 果 我 们 希望 对 列表 进行 6 次 搜索 ， 那 么 问题 就 
变 成 : sortComplexity(Z) + log(len(Z)) 小 于 人 slen(Z) 中 ? 

£ 越 来 越 大 时 ,列表 排序 所 用 的 时 间 会 变 得 越 来 越 微不足道 。 Kk 的 大 小 取决 于 列表 排序 所 需 的 
时 间 。 例 如 ， 如 果 排 序 时 间 与 列表 大 小 成 指数 关系 ，k 就 应 该 非常 大 。 
幸运 的 是 ， 排 序 可 以 相当 高 效 地 完成 。 例 如 ， 在 大 多 数 Python 版 本 中 ， 标 准 排序 算法 的 运行 
时 间 大 约 是 O(n*log(n))， 这 里 的 x 是 列表 长 度 。 实 际 上 ， 我 们 几乎 不 用 自己 实现 排序 函数 。 在 大 
多 数 情况 下 , 我们 应 该 使 用 Python 内 置 的 sort 方 法 (L.sort() 可 以 对 列表 LL 排序 ), 或 者 使 用 内 置 
函数 sorted ( sorted(L) 会 返回 一 个 列表 ， 其 中 包含 与 L 同 样 的 元 素 , 但 是 不 会 修改 L )。 我 们 介 
绍 排序 算法 的 基本 目的 是 ， 帮 助 大 家 在 算法 设计 和 复杂 度 分 析 方面 积累 一 些 实际 经 验 。 

首先 ， 从 一 个 简单 但 是 低 效 的 算法 开始 : 选择 排序 。 如 图 10-4 所 示 ， 选 择 排序 的 工作 原理 是 
维持 一 个 循环 不 变 式 ， 它 会 将 列表 分 成 前 绥 部 分 (L[8 : i] ) 和 后 级 部 分 (L[i+1 : len(L)] )， 
前 缀 部 分 已 经 排 好 序 ， 而 且 其 中 的 每 一 个 元 素 都 不 大 于 后 缀 部 分 中 的 最 小 元 素 。 



























































def selSort(L): 
""" 假 设 L 是 列表 ， 其 中 的 元 素 可 以 用 > 进行 比较 。 
compared using >. 
对 L 进 行 升序 排列 """ 
suffixStart = 6 
while suffixSstart != len(L): 
# 检 查 后 级 集合 中 的 每 个 元 素 
for i in range(suffixStart, len(L)): 
if L[i] < L[suffixSstart]: 
# 交 换 元 素 位 置 
L[suffixStart], L[i] = L[i], L[suffixStart] 
suffixStart += 1 














图 10-4 ”选择 排序 
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我 们 使 用 归纳 法 对 循环 不 变 式 进行 推导 。 
口 基础 情形 : 第 一 次 迭代 开始 时 ， 前 缀 集合 是 空 的 ， 也 就 是 说 ， 后 级 集合 是 整个 列表 。 
此 ,不 变 式 (显然 ) 成 立 。 
口 归纳 步骤 : 在 算法 的 每 一 步 中 ， 我 们 都 从 后 缀 集合 向 前 级 集合 移动 一 个 元 素 ， 移 动 的 方 
式 是 将 后 缀 集合 中 的 最 小 元 素 添加 到 前 级 集合 的 末尾 。 因 为 移动 元 素 之 前 ， 不 变 式 是 成 
立 的 ， 所 以 添加 元 素 之 后 ， 前 级 集合 依然 有 序 。 而 且 ， 因 为 我 们 从 后 缀 集合 中 移 走 的 是 
最 小 元 素 ， 所 以 前 缀 集合 中 仍然 没有 任何 一 个 元 素 大 于 后 级 集合 中 的 最 小 元 素 。 
口 结束 : 退出 循环 时 ， 前 级 集合 中 包括 了 整个 列表 ， 后 级 集合 是 空 的 。 因 此 ， 整 个 列表 按 
照 升序 排列 。 
很 难 想象 还 有 比 选择 排序 更 加 简单 明了 的 排序 算法 。 但 非常 遗憾 ， 这 个 算法 非常 低 效 。" 内 
层 循环 的 复杂 度 为 Olen(ZL))， 外 层 循环 的 复杂 度 也 是 O(en(Z))。 所 以 ， 整 个 函数 的 复杂 度 是 
O(en(L)”)， 即 列表 L 长 度 的 平方 。 


10.2.1 ”归并 排序 


幸运 的 是 , 我 们 可 以 使 用 分 治 算 法 得 到 比 平方 复杂 度 好 得 多 的 结果 。 其 基本 思想 就 是 先 找 出 
初始 问题 的 一 些 简单 实例 的 解 ， 再 将 这 些 解 组 合 起 来 作为 初始 问题 的 解 。 一 般 来 说 , 分 治 算法 具 
有 以 下 特征 : 
口 一 个 输入 规模 的 浆 值 ， 低 于 这 个 冰 值 的 问题 不 会 进行 分 解 ; 

口 一 个 实例 分 解 成 子 实例 的 规模 和 数量 ; 
口 合并 子 解 的 算法 。 

阔 值 有 时 被 称 为 递归 基 。 对 于 第 二 条 特征 ， 经 常 要 考虑 初始 问题 规模 与 子 实例 规模 的 比例 。 
在 至 今 为 止 我 们 见 过 的 大 多 数 例子 中 ， 这 个 比例 是 2。 

归并 排序 是 一 种 典型 的 分 治 算法 , 它 由 约翰 : 冯 : 诺 依 曼 于 1945 年 发 明 , 至 今 仍 被 广泛 使 用 。 
和 多 数 分 治 算法 一 样 ， 用 递归 方式 描述 它 是 最 容易 的 : 

(1) 如 果 列 表 的 长 度 是 0 或 1， 那 么 它 已 经 排 好 序 了 ; 

(2) 如 果 列 表 包 含 多 于 1 个 元 素 ， 就 将 其 分 成 两 个 列表 ， 并 分 别 使 用 归并 排序 法 进行 排序 ; 

(3) 合并 结果 。 

冯 : 诺 依 曼 的 关键 发 现 是 ， 两 个 有 序 的 列表 可 以 高 效 地 合并 成 一 个 有 序列 表 。 合 并 的 思想 
是 ， 先 看 每 个 列表 的 第 一 个 元 素 ， 然 后 将 二 者 之 间 较 小 的 一 个 移 到 目标 列表 的 末尾 。 其 中 一 个 
列表 为 空 时 ， 就 将 另 一 个 列表 中 余下 的 元 素 复制 到 目标 列表 未 尾 。 举 例 来 说 ， 假 设 要 合并 列表 
[1，5，12，18，19，26] 和 [2，3，4，17]: 

列表 1 中 剩余 元 素 ”| 列表 2 中 剩余 元 素 | 目标 列表 | 

















































































































































































































[1,5,12,18,19,20] [2,3,4,17] [] 
[5,12,18,19,26] [2,3,4,17] [1] 
[5,12,18,19,26] [3,4,17] [1,2] 




















但 它 不 是 效率 最 差 的 排序 算法 。 
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[5,12,18,19,26] [4,17] [1,2,3] 

[5,12,18,19,26] [17] [1,2;3,4] 

[12,18,19,26] [17] [1,2,3,4,5] 

[18,19,26] [17] [1,2,3,4,5,12] 

[18,19,26] [] [1,2,3,4,5,12,17] 

[] [] [1,2,3,4,5,12,17,18,19,20] 





合并 过 程 的 复杂 度 是 多 少 呢 ? 过 程 中 有 两 个 常数 时 间 操 作 , 比较 元 素 的 值 和 从 一 个 列表 向 另 
一 个 列表 复制 元 素 。 比 较 的 次 数 是 O(len(Z))， 这 里 的 L 是 两 个 列表 中 较 长 的 那个 。 复 制 操 作 的 次 
数 是 Olen(L1) + len(L2))， A a gh td rn eg ls 
这 并 不 会 影响 排序 时 间 增 长 的 速度 ， 这 个 速度 是 列表 中 元 素 个 数 的 函数 。) 因此 ， 合 并 两 个 有 序 
i 

归并 排序 算法 的 实现 如 图 10-5 所 示 。 





















































def merge(left, right, compare): 
" "假设 left 和 right 是 两 个 有 序列 表 ，compare 定 义 了 一 种 元 素 排 序 规则 。 
返回 一 个 新 的 有 序列 表 (按照 compare 定 义 的 顺序 ) ， 其 中 包含 与 
(left+right) 相同 的 元 素 。""" 


result = [] 
i,j = 0, 0 
while i < len(left) and j < len(right): 
if compare(left[i], right[j]): 
result.append(left[i]) 
i+=1 
else: 
result.append(right[j]) 
j+=1 
while (i < len(left)): 
result.append(left[i]) 
i += 1 
while (j < len(right)): 
result.append(right[j]) 
j+=1 
return result 


def mergeSort(L, compare = lambda x, y: x < y): 
"" 假 设 L 是 列表 ，compare 定 义 了 L 中 元 素 的 排序 规则 
on elements of L 
返回 一 个 新 的 具有 L 中 相同 元 素 的 有 序列 表 。""" 
if len(L) < 2: 
return L[:] 
else: 
middle = len(L)//2 
left = mergeSort(L[:middle], compare) 
right = mergeSort(L[middle:], compare) 
return merge(left, right, compare) 




















图 10-5 ”归并 排序 
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请 注意 , 我 们 将 比较 操作 符 作为 nergesort 函 数 的 一 个 参数 , 并 编写 了 一 个 Lambda 表 达 式 作 
为 默认 值 。 例 如 ， 以 下 代码 : 


上 = [2,1,4,5,3] 
print(mergeSort(L), mergeSort(L, lambda x, y: x > y)) 


会 输出 : 

[1, 2, 3, 4, 5] [5, 4, 3, 2,1] 

分 析 一 下 mergeSort 的 复杂 度 。 我 们 已 经 知道 , merge 的 时 间 复 杂 度 是 O(en(7))。 在 每 层 递归 
中 ,要 合并 的 元 素 总 数 是 len(L)。 因 此 ，mergeSort 的 时 间 复 杂 度 是 O(len()) 乘 以 递归 的 层 数 。 因 
为 mergesort 每 次 将 列表 分 为 两 半 ， 所 以 我 们 可 知 递归 层 数 是 O(log(len()))。 因 此 ，mergeSort 
的 时 间 复 加 度 是 O(n*log(n))， 这 里 的 n 是 len(7)。 

这 比 选择 排序 的 O(len(ZL)”) 要 好 多 了 。 举 例 来 说 ， 如 果 IL 中 有 10 000 个 元 素 ， 那 么 len(Z)” 
就 是 1 亿 ， 而 len(Z)*log(len(Z)) 大 约 只 有 13 万 。 

这 种 对 时 间 复 杂 度 的 改进 是 有 代价 的 。 选 择 排 序 是 原 地 排序 算法 的 一 个 实例 , 因为 它 在 列表 
内 部 交换 元 素 位 置 ， 仅 使 用 固定 数量 的 额外 存 储 (在 我 们 的 具体 实现 中 ， 是 一 个 元 素 的 大 小 ) 
相 比 之 下 ,合并 排序 算法 需要 复制 列表 ， 这 意味 着 其 空间 复杂 度 是 OUen(Z))。 对 于 大 规模 列表 来 


说 ， 这 可 能 是 个 问题 。” 


10.2.2 ”将 函数 用 作 人 参数 


假设 我 们 要 对 一 个 姓名 列表 进行 排序 ， 其 中 姓名 的 形式 为 “ 先 名 后 姓 ”， 如 列表 ['Chris 
Terman'，'Tom Brady'，'Eric Grimson'，'Gisele Bundchen']。 图 10-6 中 定义 了 两 个 定 序 薄 
数 ， 然 后 通过 这 些 函 数 使 用 两 种 不 同 的 定 序 方式 对 一 个 列表 进行 排序 。 每 个 函数 都 使 用 了 str 类 
型 的 split 方 法 。 































































































| 快速 排序 由 C.A.R.Hoare 于 1960 年 发 明 。 这 种 方法 在 概念 上 与 归并 排序 很 相似 , 但 比 归 并 排序 复杂 得 多 。 它 的 优点 
是 只 需要 log(n) 大 小 的 额外 空间 。 与 归并 排序 不 同 ， 其 运行 时 间 依 赖 于 列表 中 待 排序 元 素 之 间 的 相对 顺序 。 尽 管 
快速 排序 在 最 差 情形 下 的 运行 时 间 是 O(n”))， 但 它 的 期 望 运行 时 间 只 有 O(n*log(n))。 
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def lastNameFirstName(name1, name2): 
argl = name1.split(' ') 
arg2 = name2.split(' ') 
if arg1[1] != arg2[1]: 
return arg1[1] < arg2[1] 
else: # 姓 相同 ， 则 按照 名 排序 
return arg1[8] < arg2[6] 


def firstNameLastName(name1, name2): 
argl = name1.split(' ') 
arg2 = name2.split(' ') 
if arg1[6] != arg2[6]: 
return arg1[8] < arg2[6] 
else: # 名 相同 ， 则 按照 姓 排序 
return arg1[1] < arg2[1] 


L= ['Tom Brady', 'Eric Grimson', 'Gisele Bundchen'] 
newL = mergeSort(L, lastNameFirstName) 

print('Sorted by last name =', newL) 

newL = mergeSort(L, firstNameLastName) 

print('Sorted by first name ="', newL) 














图 10-6 ”姓名 列表 排序 
运行 图 10-6 中 的 代码 ， 会 输出 以 下 结 


Sorted by last name = ['Tom Brady', 'Gisele Bundchen', 'Eric Grimson'] 
Sorted by first name = ['Eric Grimson'’, 'Gisele Bundchen', 'Tom Brady'] 





10.2.3” ”Python 中 的 排序 


多 数 Python 版 本 中 使 用 的 排序 算法 被 称 为 timsort*。 这 种 算法 的 核心 思想 是 利用 这 样 一 个 事 
实 ， 即 在 很 多 数据 集中 ， 数 据 已 经 部 分 有 序 。timsort 在 最 差 情形 下 的 性 能 与 归并 排序 一 样 ， 但 平 
均 性 能 要 远 远 超过 归并 排序 。 

正如 我 们 以 前 提 到 过 的 ，Python 的 1ist.sort 方 法 使 用 列表 作为 第 一 个 参数 并 且 修 改 这 个 列 
表 。 相 反 ，Python 中 的 sorted 函 数 使 用 一 个 可 迭代 的 对 象 ( 如 列表 或 视图 ) 作为 第 一 个 参数 ， 并 
返回 一 个 排 好 序 的 新 列表 。 例 如 ， 以 下 代码 : 


L = [3,5,2] 

D= {'a':12, 'c':5, 'b':'dog'} 
print(sorted(L)) 

print(L) 

L.sort() 

print(L) 

print(sorted(D)) 

D.sort() 
































Q timsort 由 蒂 姆 .彼得 斯 于 2002 年 发 明 ， 因 为 他 对 Python 以 前 使 用 的 排序 算法 很 不 满 。 
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[2，3，5] 

[3，5，2] 

[2，3，5] 

['a'",，'b', 'c'] 

AttributeError: 'dict' object has no attribute "sort 

请 注意 ， 把 sorted 函 数 应 用 于 一 个 字典 时 ， 会 返回 一 个 排 好 序 的 字典 键 的 列表 。 相 比 之 下 ， 
在 字典 上 应 用 sort 方 法 时 ， 会 引发 一 个 异常 ， 因 为 没有 dict.sort 这 个 方法 。 

list.sort 方 法 和 sorted 函 数 都 可 以 有 两 个 附加 参数 。 参 数 key 的 作用 和 我 们 实现 归并 排序 
时 的 compare 一 样 : 提供 用 于 排序 的 比较 函数 。 参 数 reverse 指 定 对 列表 进行 升序 还 是 降序 排序 ， 
升序 和 降序 都 是 相对 于 比较 函数 来 说 的 。 例 如 ， 以 下 代码 : 


L = [[1,2,3], (3,2,1,0), "abc'] 
print(sorted(L, key = len, reverse = True)) 


按照 长 度 的 相反 顺序 对 L 中 的 元 素 进行 排序 ， 会 输出 : 

[(3, 2, 1, 86), [1, 2, 3],， 'abc'] 

list.sort 方 法 和 sorted 函 数 都 采用 稳定 排序 方法 ， 这 意味 着 如 果 两 个 元 素 的 比较 项 目 〈 本 
例 中 是 长 度 ) 是 相等 的 , 那么 它们 在 初始 列表 (或 其 他 可 迭代 对 象 ) 中 的 相对 顺序 会 被 保留 到 最 
终 列表 。( 因为 没有 键 会 在 一 个 dict 对 象 中 出 现 一 次 以 上 ， 所 以 应 用 于 dict 时 ，sorted 困 数 是 否 
稳定 这 个 问题 其 实 没 有 意义 。) 


10.3” 散 列表 


如 果 我 们 将 归并 排序 与 二 分 查找 结合 起 来 , 就 可 以 很 好 地 解决 列表 搜索 的 问题 。 使 用 归并 排 
序 在 O(n*log(n)) 时 间 内 对 列表 进行 预 处 理 ， 然 后 使 用 二 分 查找 在 O(log(n)) 时 间 内 检验 元 素 是 否 在 
列表 中 。 如 果 对 列表 进行 次 搜索 ， 那 么 总 体 时 间 复 杂 度 就 是 O(n*log(n)) + kK*O(og(n))。 

这 已 经 相当 不 错 了 , 但 我 们 还 是 要 问 ， 可 以 做 一 些 预 处 理工 作 时 ， 对 数 复杂 度 就 是 我 们 在 搜 
索 问 题 上 能 得 到 的 最 好 结果 吗 ? 

第 5 章 介绍 dict 类 型 时 说 过 ， 字 典 使 用 一 种 称 为 “ 散 列 ”的 技术 进行 搜索 ， 这 种 技术 使 得 搜 
索 时间 几 乎 与 字典 大 小 无 关 。 散 列表 背后 的 基本 思想 非常 简单 ,我 们 将 键 转换 为 一 个 整数 ， 然 后 
使 用 这 个 整数 索引 一 个 列表 ,这 都 可 以 在 常数 时 间 内 完成 。 理 论 上 , 任何 类 型 的 值 都 可 以 轻松 转 
换 为 一 个 整数 。 归 根 结 底 ， 每 个 对 象 在 计算 机 内 部 的 表示 都 是 一 个 位 序列 ,任何 一 个 位 序列 都 可 
以 表示 一 个 整数 。 举 例 来 说 ， 字 符 串 'abc ' 的 内 部 表示 是 位 序列 011000010110001001100011， 它 
可 以 表示 十 进 制 整数 6382 179。 当 然 ， 如 果 想 使 用 字符 串 的 内 部 表示 作为 列表 索引 ， 那 列表 肯定 
会 非常 长 。 

如 果 键 已 经 是 整数 ， 又 当 如 何 ?” 设 想 一 下 ,如果 我 们 正在 实现 一 个 字典 , 字典 的 键 是 美国 社 
保 号 码 (9 位 整数 )。 用 一 个 包含 10? 个 元 素 的 列表 来 表示 这 个 字典 ， 并 用 社保 号 码 索引 这 个 列表 ， 
就 可 以 在 常数 时 间 内 完成 查找 工作 。 当 然 ， 如 果 字 典 中 只 包含 10 000 ( 10 ) 个 人 员 的 条 目 ， 就 会 
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浪费 大 量 空间 。 
为 了 解决 这 个 问题 ,我们 引入 散 列 函数 。 它 会 将 一 个 大 规模 的 输入 空间 ( 如 所 有 自然 数 ) 映 
射 为 一 个 小 规模 的 输出 空间 ( 如 0~5000 的 自然 数 )。 所 以 ， 可 以 使 用 散 列 函数 将 数量 巨大 的 键 转 
换 为 数量 较 少 的 整数 索引 。 
因为 输出 空间 小 于 输入 空间 ， 所 以 散 列 函数 是 个 多 对 一 映射 。 也 就 是 说 ， 多 个 不 同 输入 会 被 
映射 为 同一 输出 。 Wt 同一 不 往 由 我 们 称 这 种 情况 为 碰撞 ， 随 后 会 对 其 进行 
介绍 。 一 个 好 的 散 列 函数 会 生成 一 个 均匀 分 布 , 也 就 是 说 , 范围 内 出 现 每 种 输出 的 可 能 性 都 是 相 
等 的 ， 这 会 使 产生 碰撞 的 可 能 性 最 小 化 。 
图 10-7 中 ， 我 们 使 用 一 个 简单 的 散 列 函数 ( 回忆 一 下 ，i%j 返 回 整数 除 以 整数 后 的 余数 ) 实 
现 带 有 整数 键 的 字典 。 























class intDict(object): 
"" 键 为 整数 的 字典 """ 


def _ init (self, numBuckets): 
"" 创 建 一 个 室 字 典 """ 
self.buckets = [] 
self.numBuckets = numBuckets 
for i in range(numBuckets): 
self.buckets.append([]) 
def addEntry(self, key, dictVal): 
" "假设 Kkey 是 整数 。 添 加 一 个 字典 条 目 。""" 
hashBucket = self.buckets[key%self.numBuckets] 
for i in range(len(hashBucket)): 
if hashBucket[i][86] == key: 
hashBucket[i] = (key, dictVal) 
return 
hashBucket.append( (key, dictVal)) 


def getValue(self， key ) : 
"假设 Key 是 整数 。 
返回 键 为 Key 的 字典 值 """ 
hashBucket = self.buckets[key%self.numBuckets] 
for e in hashBucket: 
if e[6] == key: 
return e[1] 
return None 


def _ str_(self): 
result = "{" 
for b in self.buckets: 
for e in b: 
result = result + str(e[6]) + ':' + str(e[1]) + '," 
return result[:-1] + '}' #result[:-1] omits the last comma 



































图 10-7 使 用 散 列 算法 实现 字典 
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上 述 实 现 的 基本 思想 是 通过 散 列 桶 列表 表示 intDpict 类 的 实例 ， 每 个 散 列 桶 都 是 一 个 元 组 形 
式 的 键 / 值 对 列表 。 通 过 这 种 每 个 桶 都 是 一 个 列表 的 方式 ， 我 们 可 以 将 散 列 到 同一 个 桶 的 所 有 值 
都 保存 在 列表 里 ， 从 而 解决 碰撞 问题 。 

散 列 表 的 工作 方式 如 下 : 实例 变量 buckets 被 初始 化 为 一 个 列表 ,其 中 包含 numBuckets 个 空 
列表 。 如 果 想 保存 或 查找 一 个 键 值 为 dictkey 的 条 目 ， 首 先 要 使 用 散 列 函数 % 属 dictKey 转 换 为 一 
个 整数 ， 并 使 用 这 个 整数 在 buckets 中 索引 ， 找 到 与 dictKey 关 联 的 散 列 桶 。 然 后 对 这 个 桶 (其 
实 是 一 个 列表 ) 进行 线性 搜索 ， 看 看 是 否 有 一 个 条 目的 键 是 dictkey。 如 果 我 们 执行 的 是 查找 工 
作 ， 并且 有 一 个 条 目的 键 是 dictKey， 那 么 返回 保存 在 该 条 目 中 的 值 即 可 ; 如 果 没 有 条 目的 键 是 
dictkey， 则 返回 None。 如 果 要 保存 一 个 值 ， 应 当 首先 检查 散 列 桶 中 是 否 已 经 有 带 有 这 个 键 的 条 
目 。 如 果 有 ， 就 使 用 一 个 新 元 组 替换 这 个 条 目 ， 否 则 向 桶 中 添加 一 个 新 条 目 。 

还 有 很 多 其 他 方法 可 以 解决 碰撞 问题 ,有 些 方法 比 使 用 列表 更 高 效 。 但 这 可 能 是 最 简单 的 一 
种 方法 ,如果 散 列表 相对 于 要 保存 的 元 素数 量 足够 大 , 并 且 散 列 函 数 能 提供 对 均匀 分 布 足够 好 的 
近似 ， 那 么 这 种 方法 的 效果 会 非常 好 。 

请 注意 ，_str_ 方法 提供 了 一 种 字典 的 表示 方法 ， 这 种 方法 与 元 素 添 加 到 字典 中 的 顺序 无 
关 ， 而 是 按照 键 的 散 列 值 排序 的 。 这 就 解释 了 我 们 为 什么 不 能 预测 dict 类 型 对 象 中 的 键 的 顺序 。 

下 面 的 代码 首先 创建 一 个 带 有 17 个 桶 和 20 个 条 目的 jntDict 对 象 。 条 目 中 的 值 是 0~19 的 整 
数 。 键 在 0~10 -1 且 使 用 random.choice 随 机 选择 。( 我 们 会 在 第 14 章 和 第 15 章 讨论 random 模 块 。) 
代码 接着 使 用 定义 在 类 中 的 _ str_ 方法 输出 intDict 对 象 。 最 后 , 代码 通过 遍历 D.buckets 输 出 
每 个 散 列 桶 。( 这 严重 违背 了 信息 隐藏 原则 ， 但 在 教学 上 很 有 用 。 ) 

import random 

D = intDict(17) 

for i in range(20): 

# 从 6@~16*##5-1 中 选择 一 个 随机 整数 
key = random.choice(range(106**5)) 
D.addEntry(key, i) 

print('The value of the intDict is:') 

print(D) 

print('\n', 'The buckets are:') 


for hashBucket in D.buckets: # 破 坏 了 抽象 的 屏障 
print(' ', hashBucket) 


运行 这 段 代 码 会 输出 以 下 结果 : " 


The value of the intDict is: 
{99746:6,61898:8,15455:4,99913:18,276:19,63944:13,79618:17,51693:15,827 
1:2,3715:14,74666:1,33432:3,58915:7,12362:12,56723:16,27519:11,64937:5， 
85465:9,49756:16,17611:6} 


































































































































































































The buckets are: 


[] 
[(99740, 6), (61898, 8)] 
[(15455, 4)] 





中 因为 整数 是 随机 选择 的 ， 所 以 你 运行 代码 会 得 到 一 些 不 同 的 结果 。 
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[(99913, 18), (276, 19)] 

[] 

问 

[(63944, 13), (79618, 17)] 
[(51693，15)] 

[(8271, 2), (3715, 14)] 

[(746606, 1), (33432, 3), (58915, 7)] 
[(12302, 12), (56723, 16)] 

[] 

[(27519, 11)] 

[(64937, 5), (85465, 9), (49756, 10)] 
[] 

[(17611, 0)] 


当 我 们 越过 抽象 边界 ,窥视 indict 对 象 的 内 部 表示 时 , 可 以 发 现 有 些 散 列 桶 是 空 的 , 有 些 散 
列 桶 则 包含 了 一 个 、 两 个 或 三 个 条 目 ， 这 取决 于 发 生 碰撞 的 次 数 。 

那么 ，getVal 的 复杂 度 是 多 少 呢 ?” 如 果 没 有 碰撞 ,复杂 度 就 是 0(1)， 因 为 每 个 散 列 桶 的 长 度 
都 是 0 或 1。 但 是 , 碰撞 当然 无 法 避免 。 如 果 所 有 键 都 被 散 列 映射 到 同一 个 桶 中 , 复杂 度 就 是 O(n)， 
这 里 的 是 字典 中 的 条 目 数量 ， 因 为 代码 会 对 该 散 列 桶 执行 线性 搜索 。 如 果 散 列表 足够 大 ， 就 可 
以 减少 碰撞 次 数 ， 完 全 将 复杂 度 降低 到 0O(1)。 也 就 是 说 ,我 们 能 够 以 空间 换 时 间 。 但 是 如 何 进 行 
取舍 呢 ? 为 了 回答 这 个 问题 ， 需 要 了 解 一 些 概率 方面 的 知识 ， 所 以 我 们 将 答案 留 到 第 15 章 。 







































































绘图 以 及 类 的 进一步 扩展 





























文本 通常 是 交流 信息 的 最 好 方式 , 但 有 些 时 候 ， 中 国 谚语 “一 图 胜 千 言 ”也 是 事实 。 但 多 数 
程序 仍然 依赖 文本 输出 与 用 户 进 行 交 流 。 原因 何在 ?因为 在 多 数 编程 语言 中 , 提供 可 视 化 数据 太 
难 了 。 幸 运 的 是 ， 在 Python 中 非常 简单 。 























11.1 使 用 PyLab 绘图 


PyLab 是 一 个 Python 标 准 库 模 块 ， 提 供 了 MATLAB 的 很 多 功能 。MATLAB 是 “一 种 高 级 的 技 
术 计 算 语言 和 交互 环境 ， 可 以 用 于 算法 开发 、 数 据 可 视 化、 数据 分 析 和 数值 计算 ”。 "在 本 书后 面 
的 章节 中 ， 我 们 还 会 介绍 一 些 关于 PyLab 的 更 高 级 的 内 容 ， 但 在 本 章 ， 我 们 重点 介绍 其 绘制 数据 
图 形 的 功能 。PyLab 绘 图 能 力 的 完整 用 户 指南 参见 matplotlib.sourceforge.netusers/index.html。 

还 有 很 多 网 页 也 提供 了 非常 精彩 的 教程 。 本 书目 的 不 是 提供 用 户 指 南 或 完整 教程 ,相反 ,本 
章 只 提供 若干 绘图 示例 ， 并 解释 如 何 用 代码 生成 这 些 图 形 。 其 他 示例 将 会 在 后 面 的 章节 中 介绍 。 

我 们 先 从 一 个 简单 的 例子 开始 ， 使 用 pylab .plot 生 成 两 张 图 。 运 行 以 下 代码 : 


import pylab 
























































pylab.figure(1) # 创 建 图 1 





pylab.plot([1,2,3,4]，[1,7,3,5]) # 在 图 1 上 绘图 
pylab. show() # 在 屏幕 上 显示 





会 在 显示 器 上 打开 一 个 窗口 ， 窗 口 的 具体 外 观 取决 于 你 的 Python 环境 ， 但 会 与 图 11-1 (使 用 
Anaconda 生 成 ) 非常 相似 。 运 行 这 段 代码 时 ， 如 果 你 使 用 的 是 多 数 PyLab 安 装 版 本 的 默认 参数 设 
置 ， 那 图 中 的 线 就 可 能 不 会 像 图 11-1 那 么 粗 。 我们 使 用 的 线 宽 和 字号 不 是 标准 默认 值 ， 这 样 图 形 
会 在 印刷 成 书 的 时 候 好 看 一 些 。 在 后 面 的 小 节 将 介绍 如 何 设置 图 形 参数 。 





























GD http:/www.mathworks.com/products/matlab/description1.html?s_cid=ML b1008_desintro 
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图 11-1 一 个 简单 的 绘图 


图 形 最 上 方 的 标题 栏 中 有 窗口 名 称 ， 本 例 中 是 Figure 1。 

窗口 中 间 部 分 是 调用 pylab.plot 生 成 的 图 形 。pylab.plot 中 的 两 个 参数 必须 是 同样 长 度 的 
序列 。 第 一 个 参数 指定 了 图 中 所 有 点 的 X 轴 坐标 ， 第 二 个 参数 指定 Y 轴 坐标 。 两 个 参数 一 起 提供 
一 个 序列 ， 其 中 包括 4 个 坐标 对 : [(1，1)，(2，7)，(3，3)，(4，5)]。 这 些 点 依次 绘制 在 图 
中 ， 绘 制 每 个 点 时 ， 都 用 一 条 直线 与 前 面 的 点 相连 。 

最 后 一 行 代 码 pylab.show() 会 使 窗口 显示 在 计算 机 屏幕 中 。" 在 某 些 Python 环境 中 ， 如 果 没 
有 这 行 代 码 ， 图 形 依然 会 生成 ,但 是 不 会 显示 。 这 种 做 法 乍 一 听 很 傻 , 但 其 实 不 是 ， 因 为 我 们 完 
全 可 以 选择 将 图 形 直接 保存 在 文件 中 (我 们 之 后 会 这 样 做 )， 而 不 是 显示 在 屏幕 上 。 

窗口 上 方 工具 栏 中 有 几 个 按钮 。 最 右 侧 的 按钮 会 弹出 一 个 窗口 ， 里面 有 一 些 可 以 用 来 调整 图 
形 设置 的 选项 。 左 侧 与 之 相 邻 的 按钮 用 来 将 图 形 保存 到 文件 。“ 再 往 左 的 按钮 用 来 调整 窗口 中 图 
形 的 外 观 。 再 往 左 的 两 个 按钮 用 来 缩放 和 平移 。 看 上 去 像 箭 头 的 两 个 按钮 用 来 查看 以 前 的 视图 ( 类 
似 网 页 浏览 器 中 的 “前 进 ” 和 和 “后退” 按钮 )。 当 你 使 用 其 他 按钮 对 图 形 进 行 一 番 操 作 后 ， 可 以 
使 用 最 左边 的 按钮 将 图 形 还 原 为 初始 状态 。 

我 们 可 以 生成 多 个 图 形 并 将 其 保存 到 文件 中 。 文 件 可 以 使 用 任何 名 称 ， 只 要 你 喜欢 , 但 扩展 
名 会 是 .png， 表 示 文 件 的 格式 是 可 移植 网 络 图 形 ( Portable Network Graphics )。 这 是 一 种 表示 图 
形 的 公共 领域 标准 。 




















GD 在 有 些 Python 环境 中 ，py1lab.show() 会 挂 起 Python 进程 ， 直 到 图 形 被 关 掉 〈 点击 窗口 左上 角 的 红色 圆 钮 )。 这 非 


常 不 方便 ， 常 用 的 规避 方式 是 确保 pylab.show() 是 最 后 一 行 可 执行 代码 。 Ei 
@ 比较 年 轻 的 读者 可 能 不 知道 这 是 什么 东西 , 它 表示 “软盘 ”, 软盘 由 IBM 在 1971 年 开发 , 直径 8 英寸 , 可 以 保存 80 000 

字 节 数据 。 和 后 来 的 软盘 不 同 ， 它 真 的 是 软 的 。 最 初 的 TBM 个 人 电脑 只 有 一 个 5.5 英 寸 的 16 万 字 节 的 软盘 驱动 器 。 

20 世 纪 七 八 十 年 代 ， 软 盘 是 个 人 电脑 的 主要 存储 设备 。 从 20 世 纪 80 年 代 中 期 ( 苹果 电脑 ) 开始 ， 软 件 变 为 硬 质 外 

壳 ， 但 人 们 仍然 称 其 为 软盘 。 到 1998 年 ， 全 世界 每 年 都 要 消费 20 亿 张 软 盘 。 如 今 ， 你 已 经 很 难 再 找到 卖 软 盘 的 地 

方 了 。 世 间 万 种 某 粹 ， 转 头 皆 空 。 
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以 下 代码 : 
pylab.figure(1) # 创 建 图 1 
pylab.plot([1,2,3,4]，[1,2,3,4])  # 在 图 1 上 绘图 
pylab.figure(2) # 创 建 图 2 
pylab.plot([1,4,2,3], [5,6,7,8]) # 在 图 2 上 绘图 
pylab.savefig('Figure-Addie') # 保 存 图 2 
pylab.figure(1) # 回 到 图 1 
pylab.plot([5,6,16,3]) # 继 续 在 图 1 上 绘图 
pylab.savefig('Figure-Jane') # 保 存 图 1 

会 生成 图 11-2 中 的 两 幅 图 形 ， 并 将 其 保存 到 文件 Figure-Jane.png 和 Figure-Addie.png 中 。 
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我 们 注意 到 ， 最 后 一 个 pylab.plot 只 使 
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Figure-Jane.png( 左 ) 和 Figure-Addie.png( 右 ) 


昌 了 一 





个 参数 ， 这 个 参数 提供 了 Y 值 ， 相 应 的 X 值 默 


认为 由 range(len([5，6，16，3])) 产 生 的 序列 。 在 本 例子 中 ， 就 是 0~3 的 整数 。 
Pylab 中 有 个 概念 叫 作 “当前 图 ”。 运行 pylab.figure(x) 可 以 将 当前 图 设置 为 第 x 个 图 形 ,， 随 


后 的 绘图 函数 调用 都 会 作 上 月 
Figure-Addie.png 的 图 是 第 二 张 图 。 
了 看 男 一 个 例子 ， 以 下 代码 : 


principal = 16668 # 初 始 投资 
interestRate = 6.65 
years = 26 
values = [] 
for i in range(years + 1): 
values.append(principal) 
principal += principal*interestRate 
pylab.plot(values) 


生成 图 11-3 中 左 侧 的 
































会 





图 。 





在 这 个 图 上 ， 直 到 再 一 次 调用 pylab.figure。 所 以 写 和 文件 
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图 11-3 ”绘制 复 利 增长 




















但 是 ， 
有 坐标 轴 都 应 该 有 标注 。 
如 果 在 上 述 代码 的 后 面 添加 以 下 代码 : 
































pylab.title('5% Growth，Compounded Annually') 


pylab.xlabel('Years of Compounding') 
pylab.ylabel('Value of Principal ($)') 


可 以 得 到 图 11-3 中 右 侧 的 图 。 





对 于 每 条 绘制 的 曲线 ， 都 有 一 个 可 选 的 参数 ， 这 个 参数 是 一 个 格式 化 的 字符 串 ， 








曲线 的 颜色 和 线 型 。 "格式 化 字符 如 中 的 字母 和 符号 都 来 自 MATLAB， 
型 标识 符 组 成 ， 线 型 标识 符 是 可 选 的 。 格 式 化 字符 上 






























































通过 代码 可 以 推断 , 这 幅 图 展示 了 一 笔 投资 的 增长 , 初始 投资 额 为 10 000 美 元 , 年 利率 为 5%。 
只 凭 这 幅 图 可 不 容易 推理 出 这 些 信息 。 这 很 糟糕 ,所 有 图 形 都 应 该 有 意义 明确 的 标题 ， 所 


表示 图 形 中 
个 颜色 标识 符 和 一 个 线 
的 默认 值 是 'b-' ， 表 示 一 条 蓝 色 实 线 。 如 果 

















想 以 黑色 圆 点 绘制 本 金 增 长 情况 , 应 该 使 用 pylab.plot(values，ko' ) 替 换 pylab.plot (values)， 
这 样 就 可 以 生成 图 11-4。 如 果 想 查看 完整 的 颜色 和 线 型 标识 符 列表 ， 人 参见 http:/matplotlib.org/api/ 




















pyplot api.html#matplotlib.pyplot.plot。 








@ 为 了 降低 成 本 ， 我 们 选择 了 黑 
的 结论 是 ,颜色 特别 重要 ， 
地 方 都 应 该 使 用 其 他 颜色 。 























和 白 印刷 方式 。 这 就 产 4 
不 能 忽略 。 但 我 们 还 是 采 





























E 一 个 困境 : 我 们 是 否 应 当 介绍 如 何在 绘图 时 使 用 颜 
j 了 这 种 印刷 方式 。 如 组 
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出 版 彩色 书 的 话 ， 很 多 使 用 黑色 的 
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图 11-4” 另 一 复 利 增长 图 


调用 函数 时 ,使 用 关键 字 参 数 还 可 以 改变 图 形 中 的 字体 大 小 和 线条 宽度 。 例 如 ， 以 下 代码 : 


principal = 16668 # 初 始 投资 
interestRate = 6.65 
years = 26 
values = [] 
for i in range(years + 1): 
values.append(principal) 
principal += principal*interestRate 
pylab.plot(values, linewidth = 36) 
pylab.title('5% Growth, Compounded Annually', 
fontsize = 'xx-large') 
pylab.xlabel('Years of Compounding', fontsize = 'x-small') 
pylab.ylabel('Value of Principal ($)') 


通过 设置 关键 字 参 数 ， 有 意 生 成 了 一 幅 风格 怪异 的 图 ， 如 图 11-5 所 示 。 
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图 11-5 风格 怪异 的 图 
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我 们 也 可 以 修改 绘图 时 的 默认 值 ， 这 个 操作 称 为 “rc 设置 ”(rc 来 源 于 Unix 运 行 时 配置 文件 的 
扩展 名 .rc )。 这 些 默 认 值 保 存在 一 个 类 似 字典 的 变量 中 ， 可 以 使 用 pylab.rcParams 访 问 。 举 例 
来 说 ， 你 可 以 通过 运行 以 下 代码 ， 将 默认 线 宽 设置 为 6 点 。 

pylab.rcPparams["'lines.linewidth'] = 6. 


rcParams 中 有 很 多 设置 项 目 ， 完 整 的 列表 参见 http://matplotlib.org/users/customizing.html。 如 
果 你 不 想 花 费 精力 对 这 些 参数 进行 单独 设置 ， 可 以 使 用 一 个 预定 义 的 样式 表 ， 具 体 介绍 参见 
http://matplotlib.org/users/style_sheets.html#style-sheets。 

在 本 书后 面 的 例子 中 ， 最 常用 的 rc 设置 通过 以 下 代码 完成 : 


# 设 置 线 宽 
pylab.rcParams["'lines.linewidth'] = 4 
# 设 置 标题 字体 大 小 
pylab.rcParams['axes.titlesize'] = 26 
# 设 置 坐标 轴 标 签字 体 大 小 
pylab.rcParams['axes.labelsize'] = 26 
## 设 置 X 轴 数字 大 小 
pylab.rcParams['xtick.1labelsize'] = 16 
# 设 置 Y 轴 数字 大 小 
pylab.rcParams['ytick.1labelsize'] = 16 
# 设 置 X 轴 刻度 大 小 
pylab.rcParams['xtick.major.size'] = 7 
# 设 置 Y 轴 刻度 大 小 
pylab.rcParams['ytick.major.size'] = 7 
# 设 置 标记 点 大 小 ， 例 如 ， 表 示 点 的 圆圈 大 小 
pylab.rcParams['lines.markersize'] = 16 
# 显 示 图 例 时 ， 设 置 图 例 中 标记 点 的 数量 
pylab.rcParams["'legend.numpoints'] = 1 


如 果 你 在 彩色 显示 器 上 查看 图 形 , 那么 完全 可 以 不 进行 这 些 自 定义 设置 。 我 们 这 样 做 目的 是 
使 图 形 在 缩小 和 转换 为 黑白 图 形 之 后 更 好 看 。 


11.2 ” 进 阶 示例 : 绘制 抵押 贷款 


在 第 8 章 中 ， 我 们 开发 了 一 个 有 层次 结构 的 抵押 贷款 类 ， 并 以 此 为 例 介绍 了 子 类 的 用 法 。 当 
时 我 们 留 下 了 一 个 伏笔 :“ 程 序 应 该 能 够 生成 一 些 图 形 ， 以 显示 抵押 贷款 随 着 时 间 发 生 的 变化 。 
图 11-6 给 出 了 一 个 Mortgage 类 的 增强 版 本 ,向 类 添加 了 一 些 方法 , 可 以 轻松 生成 前 面 所 说 的 那些 
图 形 。( 8.4 节 介绍 过 子 数 findPayment， 定 义 如 图 8-9 所 示 。 ) 

新 Mortgage 类 中 比较 重要 方法 的 是 plotTotPd 和 plotNet。plotTotPd 方 法 简单 绘制 已 支付 
贷款 的 累积 总 额 ，plotNet 方 法 使 用 支付 的 现金 总 额 减 去 因 付 清 部 分 贷款 而 获得 的 本 金 ， 绘 制 抵 
押 贷 款 随 着 时 间 变 化 的 总 成 本 近似 值 。” 






















































































中 “点 ”是 排版 中 的 计量 单位 。1 点 =1/72 英 寸 ， 也 就 是 0.3527 毫 米 。 
@) 这 是 个 近似 值 ， 因 为 没有 考虑 资金 的 时 间 价 值 而 进行 净 现 值 计 算 。 
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class Mortgage(object): 


""" 建 立 不 同 种 类 的 押 贫 款 的 柚 象 类 """ 
def _ init (self, loan, annRate, months): 
self.loan = loan 
self.rate = annRate/12.6 
self.months = months 
self.paid = [6.6] 
self.outstanding = [loan] 
self.payment = findPpayment(loan, self.rate, 


self.legend = None #description of mortgage 


def makePayment(self) : 
self.paid.append(self.payment) 


reduction = self.payment - self.outstanding[-1]*self.rate 
self.outstanding.append(self.outstanding[-1] - reduction) 


def getTotalPaid(self) : 
return sum(self.paid) 
def _ str_(self): 
return self.legend 


def plotpayments(self, style): 


pylab.plot(self.paid[1:], style, label = self.legend) 


def plotBalance(self, style): 


pylab.plot(self.outstanding, style, label = 


def plotTotpd(self, style): 
totpd = [self.paid[8]] 
for i in range(1, len(self.paid)): 
totpPd.append(totPd[-1] + self.paid[i]) 


pylab.plot(totpd, style, label = self.legend) 


def plotNet(self, style): 
totpd = [self.paid[6]] 
for i in range(1, len(self.paid)): 
totpd.append(totpd[-1] + self.paid[i]) 
equityAcquired = pylab.array([self.loan] * 
len(self.outstanding)) 
equityAcquired = equityAcquired - \ 


pylab.array(self.outstanding) 


net = pylab.array(totPd) - equityAcquired 
pylab.plot(net, style, label = self.legend) 


months) 


self.legend) 


\ 








图 11-6” 带 有 绘图 方法 的 Mortgage 类 





在 函数 plotNet 中 ， 表达 式 pylab.array(self.outstanding) 执 行 了 一 个 类 型 转换 。 到 现在 


为 止 ， 调 用 PyLab 中 的 绘图 








函数 时 ， 都 要 求 我 们 使 用 1ist 类 型 作为 参数 。 但 这 只 是 表面 现象 ， 实 














际 上 PyLab 会 将 列表 参数 转换 为 男 一 类 型 , 即 从 numpy 继 承 的 array 类 型 。 "调用 pylab.array 只 是 
将 这 个 过 程 显 性 化 了 。 数 组 提供 了 很 多 列表 中 没有 的 便捷 操作 方式 ,特别 地 ,使 用 数组 和 算术 操 
作 符 可 以 组 成 表达 式 。PyLab 中 有 很 多 方法 可 以 创建 数组 ,但 最 常用 的 方式 是 先 创建 一 个 列表 ， 

然后 进行 转换 。 如 下 面 的 代码 : 




































































Cd numpy 是 








个 提供 科学 计算 工具 的 Python 模块 ， 除 了 多 维 数组 ， 还 提供 








量 线性 代数 工具 。 
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= pylab.array([1, 2, 4]) 
print('al =', al) 


a2 = al*2 

print('a2 =', a2) 

print('al + 3 ='", al + 3) 
print('3 - al =', 3 - al) 
print('al - a2 3 al - a2) 


print('al*a2 ="', al*a2) 








表达 式 al*2 将 al 中 的 每 个 元 素 都 乘 以 常数 2。 表 达 式 al + 3 将 al 中 的 每 个 元 素 都 加 上 整数 3。 
表达 式 al - a2 将 al 中 的 每 个 元 素 都 减 去 a2 中 对 应 的 元 素 ( 如 果 两 个 数组 长 度 不 同 ， 就 会 发 生 错 





误 )。 表 达 式 al*a2 将 al 中 的 每 个 元 素 都 乘 以 a2 中 对 应 的 元 素 。 
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al - a2 
al*+a2 = 


= [-1 -2 -4] 
[ 2 8 32] 


图 11-7 重 新 实现 了 图 8-10 中 的 三 个 Mortgage 子 类 ,每 个 子 类 都 使 用 自己 特有 的 _ 
init 方法 。TwoRate 子 类 还 覆盖 了 Mortgage 类 的 makePayment 方 法 。 


覆盖 了 Mortgage 类 中 的 


运行 上 面 代 码 ， 会 输出 以 下 结果 : 





init 方法 





class Fixed(Mortgage) : 
def _ init (self, loan, r, months): 
Mortgage.__init (self, loan, r, months) 
self.legend = 'Fixed, ' + str(r*160) + '%" 


class FixedwithPts(Mortgage) : 
def _ init (self, loan, r, months, pts): 
Mortgage.__init (self, loan, r, months) 
self.pts = pts 
self.paid = [loan*(pts/1660.06)] 
self.legend = 'Fixed, ' + str(r*100) + '%, 
+ str(pts) + ' points’' 


class TwoRate(Mortgage): 
def _ init __ 
Mortgage.__init _ 
self.teaserMonths = teaserMonths 
self.teaserRate = teaserRate 
self.nextRate = r/12.6 
self.legend = str(teaserRate*100)\ 


def makePayment(self) : 
if len(self.paid) == self.teaserMonths + 1: 
self.rate = self.nextRate 
self.payment = 
self.rate, 


Mortgage.makePpayment (self) 





(self, loan, r, months, teaserRate, teaserMonths): 
(self, loan, teaserRate, months) 


+ '% for ' + str(self.teaserMonths)\ 
+ ' months, then "+ str(r*160) + '%" 


findPayment(self.outstanding[-1]， 


self.months - self.teaserMonths) 








图 11-7 Mortgage 子 类 


图 11-8 和 图 11-9 中 的 函数 可 以 生成 图 形 ， 我 们 可 以 通过 这 些 图 
深入 的 了 解 。 

















形 对 不 同类 


型 的 抵押 贷款 有 更 
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图 11-8 中 的 compareMortgage 函 数 创 建 了 一 个 包含 不 同类 型 抵押 贷款 的 列表 ， 并 模拟 了 每 种 
贷款 的 一 系列 还 款 ， 就 像 图 8-11 一 样 。 然 后 调用 图 11-9 中 的 plotMortgage 函 数 ， 生 成 图 形 。 





varRate1, varRate2, varMonths): 
totMonths = years*12 
fixed1 = Fixed(amt, fixedRate, totMonths) 


morts = [fixed1, fixed2, twoRate] 
for m in range(totMonths): 
for mort in morts: 
mort.makePpayment() 
plotMortgages(morts, amt) 





def compareMortgages(amt, years, fixedRate, pts, ptsRate, 


fixed2 = FixedWwithpts(amt, ptsRate, totMonths, pts) 
twoRate = TwoRate(amt, varRate2, totMonths, varRate1l, varMonths) 








图 11-8 ”比较 各 种 抵押 贷款 


图 11-9 中 的 plotMortgage 函 数 使 用 Mortgage 类 中 的 绘图 方法 生成 图 形 ， 图 形 包含 三 种 抵押 
贷款 的 信息 。plotMortgage 中 的 循环 使 用 索引 i 从 列表 morts 和 styles 中 选择 元 素 ， 保 证 不 同类 
型 的 抵押 贷款 以 同样 的 方式 表示 到 不 同 的 图 形 。 举 例 来 说 ， 因 为 morts 中 的 第 三 个 元 素 表示 浮动 








利率 的 抵押 贷款 ，styles 中 的 第 三 个 元 素 是 k: ， 所 以 浮动 利率 的 抵 招 




















贷款 总 是 使 用 


黑色 点 线 给 


制 。 内 部 函数 labelPlot 为 每 张 图 生成 合适 的 标题 和 坐标 轴 标 注 。 调 用 pylab .figure 可 以 保证 将 


标题 和 坐标 轴 标 注 与 相应 的 图 形 关联 起 来 。 





def plotMortgages(morts, amt): 

def labelpPlot(figure, title, xLabel, yLabel): 
pylab.figure(figure) 
pylab.title(title) 
pylab.xlabel(xLabel) 
pylab.ylabel(yLabel) 
pylab.legend(loc = 'best') 

styles = ['k-', 'k-.'", 'k:"] 

# 给 图 编号 赋 名 

payments, cost, balance, netCost = 6，1，2，3 

for i in range(len(morts)): 
pylab.figure(payments) 
morts[i].plotPpayments(styles[i]) 
pylab.figure(cost) 
morts[i].plotTotpd(styles[i]) 
pylab.figure(balance) 
morts[i].plotBalance(styles[i]) 
pylab.figure(netCost) 
morts[i].plotNet(styles[i]) 


labelPlot(cost, 'Cash Outlay of $' + str(amt) + 
'Mortgages', 'Months', 'Total Payments') 


'Months', "Payments - Equity $') 





labelPlot(payments, 'Monthly Payments of $' + str(amt) + 
Mortgages', 'Months', 'Monthly Payments ' ) 


labelPlot(balance, 'Balance Remaining of $' + str(amt) + 
'Mortgages', 'Months', "Remaining Loan Balance of $') 
labelPlot(netCost, 'Net Cost of $' + str(amt) + ' Mortgages', 

















图 11-9 绘制 抵押 贷款 图 





SN 
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以 下 函数 调用 : 


compareMortgages(amt=206060，years=36，fixedRate=0.07， 
pts = 3.25, ptsRate=0.05, 
varRate1=6.645，VvarRate2=60.695，varMonths=48) 


可 以 生成 一 系列 图 形 〈 图 11-10~ 图 11-12 )， 对 8.4 节 中 讨论 的 抵押 贷款 进行 更 加 形象 的 阐释 。 

11-10 中 的 图 形 是 通过 调用 plotPayments 方 法 生成 的 ， 它 简单 地 绘制 了 每 种 抵押 贷款 的 每 
月 还 款额 随时 间 发 生 的 变化 。 因 为 调用 pylab.1legend 时 使 用 关键 字 参 数 loc 进 行 了 设置 ， 当 loc 
设置 为 best 时 , 程序 会 自动 选择 图 例 位 置 , 所 以 图 例 出 现在 图 中 现在 的 位 置 。 这 幅 图 清楚 地 显示 
了 每 月 还 款额 随 着 时 间 发 生 的 变化 ， 但 没有 对 每 种 抵押 贷款 的 相对 成 本 提供 太 多 的 信息 。 


















































1 1 1 1 1 
100 150 200 250 300 350 400 


月 数 
图 11-10 不 同类 型 抵押 贷款 月 还 款额 
11-11 中 的 图 形 是 通过 调用 plotTotPd 方 法 生成 的 , 它 绘制 了 每 月 月 初 发 生 的 累积 成 本 的 变 
化 ， 从 而 反映 出 每 种 抵押 贷款 的 成 本 信息 。 左 侧 是 完整 的 图 形 ， 右 图 是 左 图 放大 后 的 一 部 分 。 
0 000 美 元 抵押 贷款 逐 月 还 款 总 额 
定 利率 7.0% 站 固定 利 Rt y 


定 利率 5.0%，3.25 点 固定 利率 5.0%，3.25 点 a 
wn 前 雪 个 月 和 认为 13%， 之 后 利率 53% | 






















































































月 数 月 数 


图 11-11 不 同类 型 抵押 贷款 成 本 随时 间 的 变化 
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图 11-12 的 图 形 展示 了 每 种 贷款 的 剩余 债务 〈 左 
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图 ) 和 总 成 本 净值 ( 右 图 )。 





20 000 美 元 抵押 贷款 净 成 本 


一 固定 利率 7.0% 
wat 固定 利率 5.0%，3.25 点 at 
ww 前 48 个 月 利率 为 45%， 之 后 利率 为 953%6| ww 











250 300 400 0 50 100 150 200 360 300 560 400 
月 数 月 数 
图 11-12 不 同类 型 抵押 贷款 的 余额 与 净 成 本 





背包 与 图 的 最 优化 问题 











最 优化 问题 提供 了 一 种 结构 化 的 方法 ,可 以 解决 很 多 计算 问题 。 解决 问题 时 ， 如 果 涉 及 求 最 
大 、 最 小 、 最 多 、 最 少 、 最 快 、 最 低 价 格 等 情况 ， 那么 你 就 非常 有 可 能 将 这 个 问题 转换 为 一 个 典 
型 的 最 优化 问题 ， 从 而 使 用 已 知 的 计算 方法 进行 解决 。 
最 优化 问题 通常 包括 两 部 分 。 
口 目标 函数 : 需要 最 大 化 或 最 小 化 的 值 。 例 如 ， 波 士 顿 和 伊斯坦布尔 之 间 的 飞机 票 价 。 
口 约束 条 件 集 合 〈 可 以 为 空 ) 必须 满足 的 条 件 集合 。 例 如 旅行 时 间 的 上 界 。 

在 本 章 中 , 我 们 会 介绍 最 优化 问题 的 概念 ,并 给 出 几 个 例子 ， 当 然 ， 还 会 给 出 解决 这 些 问 题 
的 一 些 简单 算法 。 在 第 13 章 中 ， 我 们 会 详细 讨论 一 类 重要 最 优化 问题 的 有 效 解决 方法 。 
























































本 章 要 点 如 下 : 

口 很 多 具有 重要 现实 意义 的 问题 都 可 以 表述 为 一 种 简单 的 形式 ， 并 顺理成章 地 使 用 计算 方 
法 来 解决 ; 

口 将 一 个 貌似 新 鲜 的 问题 归结 为 我 们 熟知 问题 的 一 个 实例 ， 就 可 以 使 用 已 有 的 方案 解决 这 
个 问题 ; 


口 很 多 其 他 问题 都 可 以 归结 为 背包 问题 和 图 的 最 优化 问题 ; 

口 穷 举 法 提供 了 一 种 搜索 最 优 解 的 简单 方法 ， 但 在 计算 上 经 常 是 不 可 行 的 ; 

口 贪 焚 算 法 非常 实用 ， 经 常 可 以 为 最 优化 问题 找 出 相当 好 的 解 ， 但 不 一 定 是 最 优 解 。 

和 往常 一 样 , 我 们 会 补充 一 些 计算 思维 方面 的 知识 , 有 些 是 关于 Python 的 , 有 些 则 关于 编程 技巧 。 


12.1 背包 问题 


当 人 室 守 贼 并 不 容易 。 除 了 要 解决 那些 显而易见 的 问题 ( 确认 家 里 没 人 、 开 锁 、 绕 过 警报 融 、 
克服 负 罪 感 等 )， 究 贼 还 要 确定 偷 哪些 东西 。 问 题 是 ， 多 数 家 庭 中 有 价值 的 东西 都 不 是 普通 穷 贼 
能 全 部 带 走 的 。 穷 贼 该 怎么 办 呢 ?” 他 需要 找 出 一 组 能 够 带 走 的 价值 最 高 的 东西 。 

假设 窃贼 有 一 个 背包 ”"， 最 多 能 装 20 磅 赃物 ， 他 阁 入 一 户 人 家 ， 发 现 图 12-1 中 的 物品 。 很 显 






















































































Q 有 些 年 轻 人 可 能 不 会 记得 ，knapsack 就 是 人 们 过 去 常 背 的 一 种 简单 的 小 背包 一 一 那 是 双肩 包 流 行 之 前 很 久 的 事情 



































浪 ， 背 上 背 着 背包 ， 边 走边 唱 。 











了 。 如 果 你 参加 过 童子 军 的 活动 ， 那 么 应 该 会 记得 “快乐 的 流浪 汉 ” 这 首 歌 中 的 词 :“ 沿 着 山 间 小 路 ， 我 四 处 流 全 了 
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然 ， 他 不 能 把 所 有 物品 都 装 进 背包 ， 所 以 必须 确定 拿 走 哪些 物品 ， 留 下 哪些 物品 。 













































































价值 重量 价值 /重量 

钟 175 10 17.5 
油画 90 9 10 
收音 机 20 4 5 

花瓶 50 2 25 

书 10 1 10 

EB 脑 200 20 10 

图 12-1 物品 表 


12.1.1 贪 禁 算法 


对 于 这 个 问题 , 找 出 近似 解 的 最 简单 方法 就 是 贪 禁 算 法 。 从 贼 会 首先 选择 最 好 的 物品 ,然后 
是 次 好 的 , 这 样 继 续 下 去 , 直到 将 背包 装 满 。 当 然 , 在 此 之 前 ,窃贼 必须 确定 什么 是 “最 好 ”的 。 
最 好 的 物品 是 价值 最 高 的 ， 重 量 最 轻 的 ? 还 是 具有 最 高 价值 /重量 比值 的 呢 ? 如 果 选 择 价值 最 高 
的 物品 ， 就 应 该 只 带电 脑 离 开 ， 这 样 可 以 得 到 200 美 元 。 如 果 选 择 重量 最 轻 的 ， 那 么 应 该 依次 带 
走 书 、 花 瓶 、 收 音 机 和 油画 ， 一 共 价 值 170 美 元 。 最 后 ， 如 果 确 定 “最 好 ”的 含义 是 价值 /重量 比 
值 最 高 ， 那 么 应 当 首先 拿 走 花瓶 和 钟 。 然 后 有 三 种 物品 的 价值 /重量 比值 都 是 10， 但 背包 里 只 能 
放下 书 了 。 拿 走 书 之 后 ， 他 还 可 以 拿 走 收音 机 。 这 样 ， 所 有 赃物 的 价值 是 255 美 元 。 

对 于 这 个 数据 集 ， 尽 管 按 照 密度 ( 价值 与 重量 的 比值 ) 进行 贪 禁 恰好 得 到 了 最 优 结果 , 但 相 
对 于 按照 重量 或 价值 进行 贪 禁 的 算法 来 说 , 我 们 不 能 保证 按照 密度 贪 禁 的 算法 一 直 能 得 到 更 好 的 
解 。 更 普遍 地 说 ， 对 于 这 种 背包 问题 ， 无 法 确保 使 用 贪 禁 算法 找 出 的 解 是 最 优 解 。" 稍 后 会 更 详 
细 地 讨论 这 个 问题 。 

图 12-2~ 图 12-4 中 的 代码 实现 了 所 有 3 种 贪 禁 算 法 。 在 图 12-2 中 , 我 们 定义 了 Item 类 。 每 个 Item 
对 象 都 有 name 、value 和 weight 属 性 。 我 们 还 定义 了 3 个 函数 ， 都 可 以 作为 greedy 函 数 实现 中 参 
数 keyFunction 的 值 。 参 见 图 12-3。 























































































































Qz 从 这 个 事实 我 们 可 以 获取 很 多 深刻 的 经 验 教训 ， 但 不 太 可 能 支持 “ 贪 禁 是 好 的 ”这 一 观点 。 








class Item(obJject) : 

def _ init (self，n，Vv，Ww) : 
self.name = n 
self.value = V 
self.weight = w 
getName(self) : 
return self.name 
getValue(self): 
return self.value 
getWeight(self): 
return self.weight 
def _ str_(self): 


def 


def 


def 


result = '<' + self.name + "， ”+ str 
+ ', "+ str(self.weight) + 
return result 
def value(item) : 


return item.getValue() 
def weightInverse(item) : 
return 1.6/item.getweight() 
def density(item) : 
return item.getValue()/item.getWeight() 





(self.value)\ 
‘> 








图 12-2 Item 类 





def greedy(items, maxWeight, keyFunction): 

""" 假 设 Items 是 列表 , maxWeight >= 6 
KeyFunctions 将 物品 元 素 映 射 为 数值 """ 

itemsCopy = sorted(items, key=keyFunction 

result = [] 

totalValue, totalWeight = 6.6，6.6 


for i in range(len(itemsCopy)): 


result.append(itemsCopy[i]) 


return (result, totalValue) 





if (totalweight + itemsCopy[i].getweight()) “= maxWeight: 


totalWeight += itemsCopy[i].getweight() 
totalValue += itemsCopy[i].getValue() 


， reverse = True) 








图 12-3 
通过 引入 参数 keyFunction ,我们 使 greedy 函 数 在 处 到 





仿效 算法 的 实现 


一 个 物品 列表 时 ， 完 全 不 用 考虑 列表 











中 元 素 的 排列 顺序 ， 只 要 keyFunction 定 义 了 :items 中 元 素 的 排序 规则 即 可 。 可 以 使 用 定义 在 
keyFunction 中 的 排序 规则 对 items 进 行 排序 ， 并 生成 一 个 和 items 具 有 同样 元 素 的 排 好 序 的 列 
表 。 使 用 Python 内 置 的 sorted 函 数 进 行 排序 。( 使 用 sorted 而 不 用 sort 的 原因 是 ， 我 们 想 生 成 一 
个 新 列表 , 而 不 是 修改 作为 函数 参数 的 列表 。 ) 我 们 还 使 用 reverse 参 数 表示 按照 从 大 到 小 的 方式 














对 列表 进行 排序 ( 排序 规则 在 keyFunction 中 定义 )。 
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那么 greedy 算 法 的 效率 如 何 呢 ? 我 们 需要 考虑 两 件 事情 : 内 置 函数 sorted 的 时 间 复 杂 度 ， 
以 及 greedy 函 数 内 部 for 循 环 执 行 的 次 数 。 循环 迭 代 次 数 由 items 中 的 元 素数 量 决定 ， 也 就 是 说 ， 
复杂 度 为 O(n)， 这 里 的 n 是 items 的 长 度 。 然 而 ， 在 最 差 情形 下 ，Python 内 置 排 序 函 数 的 复杂 度 大 
概 是 O(nlog(n))， 这 里 的 n 是 待 排 序列 表 的 长 度 *"。 因 此 ， 贪 焚 算 法 的 时 间 复 杂 度 是 O(nlog(n))。 

图 12-4 中 的 代码 建立 了 一 个 物品 列表 ， 并 使 用 3 种 列表 排序 方式 对 greedy 函 数 进 行 了 测试 。 















































def buildItems(): 

names = ['clock','painting','radio','vase','book','computer'] 

values = [175,96,26,56,16,266] 

weights = [16,9,4,2,1,26] 

Items = [] 

for i in range(len(values)): 
Items.append(Item(names[i], values[i], weights[i])) 

return Items 


def testGreedy(items, maxWeight, keyFunction): 
taken, val = greedy(items, maxWeight, keyFunction) 
print('Total value of items taken is', val) 
for item in taken: 
print(' ', item) 


def testGreedys(maxWeight = 26): 

items = buildItems() 

print('Use greedy by value to fill knapsack of size', maxWeight) 

testGreedy(items, maxWeight, value) 

print('\nUse greedy by weight to fill knapsack of size', 
maxWeight) 

testGreedy(items, maxWeight, weightInverse) 

print('\nUse greedy by density to fill knapsack of size', 
maxWeight) 

testGreedy(items, maxWeight, density) 
































图 12-4 ”使 用 贪 焚 算 法 选择 物 


testGreedys() 执 行 完毕 后 ， 会 输出 以 下 结 


Use greedy by value to fill knapsack of size 26 
Total value of items taken is 266 
“Computer，266，26> 


| 








Use greedy by weight to fill knapsack of size 26 
Total value of items taken is 176 

<book，16，1> 

<vase, 50, 2> 

<radio, 260, 4> 

<painting, 906, 9> 











中 正如 我 们 在 第 10 章 所 讨论 的 ， 多 数 Python 版 本 中 使 用 的 timsort 排 序 算法 的 时 间 复 杂 度 是 O(nlog(n))。 























Use greedy by density to fill knapsack of size 26 
Total value of items taken is 255 

<vase, 50, 2> 

<clock, 175, 106> 

<book, 106, 1> 

<radio, 260, 4> 


12.1.2 ”0/1 背包 问题 的 最 优 解 


假设 我 们 认为 近似 解 还 不 够 好 , 那 就 需要 找 出 这 个 问题 的 最 优 解决 方案 。 这 种 解 称 为 最 优 解 ， 
没 错 , 因为 我 们 解决 的 是 最 优化 问题 。 窍 贼 面临 的 问题 恰好 就 是 一 种 典型 的 最 优化 问题 , 称 为 0/1 
背包 问题 。0/1 背 包 问 题 可 以 定义 如 下 。 
口 每 个 物品 都 可 以 用 一 个 值 对 < 价值 , 重量 > 表示 ; 
口 背包 能 够 容纳 的 物品 总 重量 不 能 超过 w; 
口 长 度 为 x 的 向 量 I 表示 一 个 可 用 的 物品 集合 ， 向 量 中 的 每 个 元 素 都 代表 一 个 物品 ; 
口 长 度 为 的 向 量 V 表 示 物 品 是 否 被 窃贼 带 走 。 如 果 V[= 1, 则 物品 I 上 被 囊 走 ; 如 果 V[i]=0， 
则 物品 I[ 四 没有 被 带 走 ; 
口 目标 是 找到 一 个 V， 使 得 : 





























5 VI[i]* I[i].value 
的 值 最 大 ， 并 满足 以 下 约束 条 件 : 


n—l 
>》 VIi]*Iil.weight < w 


我 们 看 看 如 何 简 单 直接 地 解决 这 个 问题 。 

(1) 枚 举 所 有 可 能 的 物品 组 合 。 也 就 是 说 ， 生 成 物品 集合 的 所 有 子 集 。" 即 物品 集合 的 寡 集 ， 
我 们 在 第 9 章 讨论 过 。 

(2) 去 掉 所 有 超过 背包 人 允许 重量 的 物品 组 合 。 

(3) 在 余下 的 物品 组 合 中 ， 选 出 任意 一 个 价值 最 大 的 组 合 。 

这 种 方法 一 定 可 以 找到 一 个 最 优 解 。 但 如 果 初 始 物品 集合 很 大 ， 就 需要 运行 很 长 时 间 。 原 因 
正如 我 们 在 9.3.6 节 看 到 的 那样 ， 随 着 物品 数量 的 增长 ， 子 集 数量 呈现 指数 型 增长 。 

图 12-5 给 出 一 个 0/1 背 包 问 题 的 暴力 解决 法 。 它 使 用 了 图 12-2 和 图 12-4 中 定义 的 类 和 函数 ， 以 
及 定义 在 图 9-6 中 的 genPowerset 子 数 。 









































Qz 回忆 一 下 ， 每 个 集合 都 是 它 本 身 的 子 集 ， 空 集 是 所 有 集合 的 子 集 。 
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def chooseBest(pset, maxWeight, getVal, getWeight): 
bestVal = 6.6 
bestSet = None 
for items in pset: 
itemsVal = 0.6 
itemsWeight = 6.6 
for :item in items : 
itemsVal += getVal(item) 
itemsWeight += getWeight(item) 
if itemsWeight <= maxWeight and itemsVal > bestVal: 
bestVal = itemsVal 
bestSet = items 
return (bestSet, bestVal) 


def testBest(maxWeight = 26) : 
items = buildItems() 
pset = genPowerset(items) 
taken, val = chooseBest(pset, maxWeight, Item.getValue, 
Item.getWeight) 
print('Total value of items taken is', val) 
for item in taken: 
print(item) 








图 12-5 0/1 背 包 问 题 的 暴力 最 优 解 














这 种 解决 方 

















案 的 复杂 度 是 O(n x 2”)， a 





列表 ， 其 中 的 元 

















国 数 genPowerset 返 回 一 个 


素 是 Items 类 型 的 对 象 组 成 的 子 列表 。 这 个 列表 的 长 度 是 2”"， 其 中 最 长 子 列表 





的 长 度 是 nx。 因 此 ,在 chooseBest 荫 数 中 ， 外 层 循环 会 J 行 0(2”) 次 ， 内 层 循环 的 执行 次 数 则 
取决 于 具体 的 n 值 。 

我 们 可 以 对 这 个 程序 进 些小 小 的 优化 ， 以 提高 运行 速度 。 例 如 ， 可 以 将 genPowerset 郴 
数 的 头 部 修改 为 : 


def genpowerset(items, constraint, getVal, getWeight) 


使 它 只 返回 那些 满足 重量 约束 的 物品 组 合 。 或 者 ， 在 chooseBest 函 数 中 ， 可 以 在 超出 重量 约束 


时 立刻 跳出 循环 
很 长 时 间 。 
理论 上 ，0/1 


系 的 。 但 从 实际 角度 讲 ， 
运行 testBest 后 ， i 以 下 结果 : 


Total value 


<clock, 175, 





o 尽管 进行 这 些 优化 可 以 起 到 一 一 些 作 月 


























日 ， 但 不 能 解决 根本 问题 。chooseBest 的 
复杂 度 仍 然 是 O(0x x 2”)， 这 里 的 n 是 items 的 长 度 ， 因 此 ，items 很 大 时 ，chooseBest 还 是 会 


运行 


背包 问 从 本 质 上 说 ， 它 的 复杂 度 就 是 与 物品 数量 成 指数 关 





























of items taken is 275.6 
16> 


<painting，96，9> 
<book，16，1> 


个 间 题 还 远 远 没 到 绝望 的 程度 ， 我 们 会 在 13.2 市 继续 讨论 。 
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请 注意 , 这 个 解 优 于 通过 贪 焚 算法 找到 的 任何 一 个 解 。 贪 梦 算 法 的 本 质 是 在 每 一 步 都 做 出 当 
前 情况 下 最 优 ( 按照 某 种 测量 方式 的 定义 ) 的 选择 ， 即 它 的 选择 是 局 部 最 优 的 。 但 正如 这 个 例子 
所 示 ， 一 系列 局 部 最 优 决策 不 一 定 会 得 出 全 局 最 优 的 解决 方案 。 

尽管 贪 焚 算 法 确实 不 一 定 能 找 出 最 优 解 , 但 它 在 实践 中 依然 很 常用 。 相 对 于 那些 一 定 能 找到 
最 优 解 的 算法 ， 它 更 易于 实现 ， 和 运行 效率 也 更 高 。 正 如 伊 万 ' 博 斯 基 所 说 :“ 我 认为 贪 村 有 益 健 
康 ， 你 可 以 在 贪 禁 的 同时 自我 感觉 良好 。”™ 

背包 问题 有 一 个 变种 ， 称 为 分 数 背包 问题 , 或 者 连续 背包 问题 。 对 于 这 种 问题 , 贪 梦 算法 一 
定 可 以 找到 最 优 解 。 因 为 物品 是 无 限 可 分 的 ， 所 以 对 于 具有 最 高 价值 /重量 比值 的 物品 来 说 ， 肯 
定 拿 得 越 多 越 好 。 举 例 来 说 ,假如 我 们 的 窃贼 在 一 间 屋 子 中 只 发 现 3 种 有 价值 的 物品 : 一 袋 金粉 、 
一 袋 银 粉 和 一 袋 葡 萄 干 。 那 么 在 这 种 情况 下 ， 密 度 贪 焚 算 法 肯定 能 找到 最 优 和 解 。 


12.2 图 的 最 优化 问题 


我 们 下 面 研究 另 一 种 最 优化 问题 。 假 设 你 有 一 个 航空 公司 航线 的 价格 列表 , 其 中 包括 美国 任 
意 两 个 城市 之 间 的 航班 价格 。 假 设 有 3 个 城市 A、B 和 C， 从 A 出 发 经 过 B 到 达 C 的 价格 是 从 A 到 B 的 
价格 加 上 从 B 到 C 的 价格 。 你 可 能 会 有 以 下 几 个 问题 : 

D 某 两 个 城市 之 间 最 少 的 停留 次 数 是 多 少 ? 

口 某 两 个 城市 之 间 最 便宜 的 飞机 票 价 是 多 少 ? 

口 某 两 个 城市 之 间 ， 如 果 停留 次 数 不 超 过 两 次 ， 那 么 最 便宜 的 飞机 票 价 是 多 少 ? 
D 如 果 想 访问 多 个 城市 ， 那 么 最 便宜 的 路 线 是 什么 ? 

所 有 这 些 问题 ( 以 及 许多 其 他 问题 ) 都 可 以 轻松 转化 为 图 的 问题 。 

图 ”是 由 边 连接 起 来 的 节点 对 象 的 集合 ， 边 也 可 称 为 狐 ， 节 点 也 可 称 为 项 点。 如 果 边 是 单 向 
的 ， 则 图 称 为 有 向 图 。 在 有 向 图 中 ， 从 节点 n1 到 n2 有 一 条 边 ， 我 们 就 称 n1 为 源 节 点 或 父 节 点 ，n2 
为 目标 节点 或 子 节点 。 

通常 ， 当 事物 的 各 个 部 分 之 间 存 在 某 种 有 价值 的 关系 时 ， 就 可 以 用 图 表示 。 图 在 数学 中 第 一 
次 有 记载 的 应 用 是 在 1735 年 , 瑞士 数学 家 莱 昂 哈 德 . 欧 拉 使 用 后 来 被 称 为 图 论 的 方法 描述 并 解决 
了 著名 的 哥 尼 斯 堡 七 桥 问 题 。 

哥 尼斯 保 当时 是 东 普 鲁 十 的 首府 , 修建 于 两 条 河流 交汇 处 , 河中 有 几 个 岛屿 。 有 七 座 桥 将 岛 
屿 和 大 陆 互 相连 接 在 一 起 ， 如 图 12-6 的 左 图 所 示 。 出 于 某 种 原因 ， 城 中 的 居民 想 知道 能 否 一 次 性 
走 遍 每 一 座 桥 ， 而 且 每 座 桥 只 走 一 次 。 

欧 拉 具 有 非凡 的 洞察 力 , 他 将 这 个 问题 进行 了 极 大 的 简化 : 可 以 将 每 块 单独 的 陆地 或 岛 看 作 
一 个 点 ( 即 节点 )， 将 每 座 桥 看 作 连接 两 个 点 的 一 条 线 ( 即 边 )。 这 样 就 可 以 使 用 图 12-6 中 的 右 图 




































































































































































@ 在 1986 年 加 州 大 学 伯克利 分 校 商学 院 的 毕业 典礼 演讲 中 ， 他 说 了 这 句 话 ， 并 博得 了 热烈 的 掌声 。 几 个 月 之 后 ， 他 
被 指控 进行 内 部 交易 ， 并 因此 入 狱 两 年 ， 罚 款 100 000 000 美 元 。 

@ 对 于 计算 机 科学 家 和 数学 家 来 说 ， 他 们 使 用 graph 这 个 词 表示 的 意义 与 本 书 一 样 。 而 使 用 plot 或 chart 指 代 对 信息 的 a 
图 形 化 表示 。 
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表示 小 镇 地 图 。 然 后 ， 欧 拉 证 明 ， 如 果 想 一 次 性 遍历 每 座 桥 且 每 座 桥 只 走 一 次 ， 那么 必须 满足 : 
行走 过 程 中 间 的 每 个 节点 ( 也 就 是 行走 过 程 中 既 走 入 又 走出 的 岛屿 , 不 包括 起 点 和 终点 ) 必须 被 
偶数 条 边 相 连 。 因 为 这 个 图 中 没有 一 个 节点 具有 偶数 条 边 ， 所 以 欧 拉 得 出 结论 , 不 可 能 在 每 座 桥 
只 走 一 次 的 情况 下 遍历 每 一 座 桥 。 


























图 12-6” 哥 尼斯 堡 的 七 座 桥 〈 左 ) 及 欧 拉 的 简化 地 图 ( 右 ) 


科学 家 们 已 经 发 展 出 了 使 用 图 论 玫 助理 解 问题 的 一 整套 思想 , 这 比 哥 尼 斯 保 七 桥 问题 甚至 欧 
拉 定 理 ( 哥 尼斯 堡 七 桥 问题 解法 的 扩展 ) 都 有 趣 得 多 。 

举例 来 说 , 仅 需 对 欧 拉 使 用 的 图 进行 一 点 小 小 的 扩展 , 就 可 以 对 一 个 国家 的 公路 系统 进行 建 
模 。 如 果 图 (或 者 有 向 图 ) 中 每 条 边 都 被 赋予 一 个 权重 ,那么 这 个 图 就 被 称 为 加 权 图 。 使 用 加 权 
图 表示 公路 系统 时 ,图 中 的 节点 表示 城市 , 边 表示 连接 城市 的 公路 , 每 条 边 都 使 用 两 个 节点 之 间 
的 距离 进行 标注 。 青 扩展 一 下 ,我 们 可 以 将 任意 一 张 路 线 图 ( 包括 有 单行 道 的 路 线 图 ) 表示 为 加 
权 图 。 

同样 ， 万 维 网 的 结构 也 可 以 用 有 向 图 表示 ， 其 中 的 节点 是 网 页 ， 当 且 仅 当 网 页 A 中 有 一 个 到 
网 页 B 的 链接 时 ， 节 点 A 和 节点 B 之 间 有 一 条 边 。 向 每 条 边 添加 一 个 表示 使 用 频率 的 权重 ， 即 可 对 
流量 模式 进行 建 模 。 

还 有 很 多 图 的 应 用 不 那么 显而易见 。 生物 学 家 使 用 图 建立 多 种 模型 ,从 和 蛋白质 之 间 的 相互 作 
用 到 基因 表达 网 络 ; 物理 学 家 使 用 图 描述 相 变 ; 流行 病 学 家 使 用 图 对 疾病 传播 的 轨迹 进行 建 模 ; 
等 等 。 

图 12-7 中 定义 了 几 个 类 ， 分别 实现 了 对 应 于 节点 、 加 权 边 和 普通 边 的 抽象 类 型 。 
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class Node(object): 

def _ init (self, name): 
"" "假设 name 是 字符 囊 """ 
self.name = name 

def getName(self): 
return self.name 

def _ str_ (self): 
return self.name 


class Edge(object): 

def _ init (self, src, dest): 
"" "假设 src 和 dest 是 节点 """ 
self.src = src 
self.dest = dest 

def getSource(self): 
return self.src 

def getDestination(self): 
return self.dest 

def _ str_ (self): 
return self.src.getName() + '->' + self.dest.getName() 

class WeightedEdge(Edge) : 

def _ init (self, src, dest, weight = 1.0): 
"" "假设 src 和 dest 是 节点 ，weight 是 个 数值 """ 
self.src = src 
self.dest = dest 
self.weight = weight 

def getWeight(self): 
return self.weight 

def _ str_ (self): 

return self.src.getName() + '->(' + str(self.weight) + ) 
+ self.dest.getName() 











图 12-7 ”节点 和 边 


专门 为 节点 建立 一 个 类 似乎 有 些 过 分 了 , 毕竟 , Node 类 中 没有 一 种 方法 能 够 执行 有 价值 的 计 
算 。 我 们 引入 这 个 类 仅 是 为 了 提供 一 种 灵活 性 , 也 许 在 以 后 某 些 时 候 可 能 引入 一 个 具有 附加 属性 
的 Node 子 类 。 

12-8 给 出 Graph 类 和 Digraph 类 的 具体 实现 。 
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Class Digraph(object): 
#nodes 是 图 中 节点 的 列表 
#edges 是 一 个 字典 ， 将 每 个 节点 映射 到 其 子 节点 列表 
def _ init (self): 
self.nodes = [] 
self.edges = {} 
def addNode(self, node): 
if node in self.nodes: 
raise ValueError('Duplicate node') 
else: 
self.nodes.append(node) 
self.edges[node] = [] 
addEdge(self, edge): 
src = edge.getSource() 
dest = edge.getDestination() 
if not (src in self.nodes and dest in self.nodes): 
raise ValueError('Node not in graph') 
self.edges[src].append(dest) 
def childrenOof(self, node): 
return self.edges[node] 
def hasNode(self, node): 
return node in self.nodes 
def _ str_ (self): 
result = "" 
for src in self.nodes: 
for dest in self.edges[src]: 
result = result + src.getName() + '->'\ 
+ dest.getName() + '\n' 
return result[:-1] #omit final newline 





de 


路 


class Graph(Digraph) : 
def addEdge(self, edge): 
Digraph.addEdge(self, edge) 
rev = Edge(edge.getDestination(), edge.getSource()) 
Digraph.addEdge(self, rev) 











图 12-8 Graph 类 和 Digraph 类 






































我 们 需要 做 的 一 项 重要 决策 是 , 如 何 选择 表示 Digraph 类 的 数据 结构 。 通 常 的 表示 方法 是 使 用 xx 
的 邻 接 矩阵 ， 这 里 的 n 是 图 中 届 点 个 数 。 和 矩阵 中 每 个 元 素 都 包含 有 连接 <i， 


息 ( 比如 权重 )。 如 果 边 没 有 权重 ,那么 当 且 仪 当 从 
一 种 常用 的 表示 方法 是 使 用 邻接 表 ， 也 就 是 我 们 在 这 里 使 用 的 方法 。 


另 











< 
































j> 这 两 个 节点 的 边 的 信 


到 有 一 条 边 时 ， 元 素 中 每 个 信息 条 目 才 为 True。 


Digraph 类 有 两 个 实 











例 变量 ， ee 其 中 的 元 素 是 Digraph 中 节点 的 名 称 。 节 点 之 间 的 连接 是 








使 用 字典 形式 的 邻接 表 来 表示 的 。 























变量 edges 是 一 个 字典 ， 将 Digraph 中 的 每 个 Node 对 象 映射 到 


一 个 列表 ， 其 中 元 素 是 Node 的 子 节 点 。 
Graph 类 是 Digraph 的 子 类 。 除 覆盖 了 addEdge 方 法 以 外 ， 它 继承 了 Digraph 类 的 所 有 方法 。 




















( 这 并 不 是 实现 Graph 类 的 最 节省 空 


s 间 的 方法 ， 因 为 它 将 每 条 边 保 存 了 两 次 ， 即 将 Digraph 中 每 条 


边 的 网 个 邦 向 都 保存 一 次 。 但 这 样 做 的 好 处 是 简单 明了 。 ) 





你 也 许 应 该 暂 集 一 下 ， 考 虑 为 





什么 使 用 Graph 作 为 Digraph 的 子 类 ， 而 不 是 反 过 来 。 在 我 们 见 过 
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的 很 多 子 类 示例 中 ， 子 类 会 向 超 类 添加 属性 。 例 如 ，WeightedEdge 类 向 Edge 类 添加 了 weight 属 性 。 

在 这 里 ，Digraph 类 和 Graph 类 具有 同样 的 属性 ， 唯 一 区 别 是 对 addEdge 方 法 的 实现 。 通 过 继 
承 彼此 的 方法 ， 这 两 个 类 都 非常 容易 实现 ， 但 将 哪个 类 作为 超 类 却 需要 仔细 其 酌 。 在 第 8 章 中 ， 
我 们 强调 了 遵守 替换 原则 的 重要 性 : 如 果 客 户 代 码 在 超 类 的 实例 上 运行 正常 , 那么 使 用 子 类 实例 
替换 超 类 实例 的 话 ， 客 户 代码 依然 能 够 正常 工作 。 

实际 上 ， 如果 客户 代码 使 用 Digraph 实 例 能 够 正确 运行 , 那么 使 用 Graph 实 例 替换 Digraph 实 
例 之 后 , 客户 代码 依然 能 够 正确 运行 。 反之 则 不 行 , 很 多 用 于 无 向 图 的 算法 (利用 了 边 的 对 称 性 ) 
不 能 在 有 向 图 上 正常 工作 。 


12.2.1 一 些 典 型 的 图 论 问 题 


有 很 多 著名 的 算法 可 以 用 来 解决 图 的 最 优化 问题 ， 这 是 使 用 图 论 表示 和 解决 问题 的 一 个 优 
势 。 以 下 是 一 些 最 著名 的 图 的 最 优化 问题 。 
口 最 短路 径 : 对 于 两 个 节点 na1 和 n2， 找 到 边 <s。 nn ，d n >( 源 节点 和 目标 节点 ) 
的 最 短 序列 ， 使 得 : 
和 第 一 条 边 的 源 节点 是 n1; 
和 最 后 一 条 边 的 目标 节点 是 n2; 
对 于 序列 中 任意 的 边 e1L 和 e2， 如 果 e2 在 序列 中 紧 跟 在 el 后 面 , 那么 e2 的 源 节 点 是 el 的 目 
标 节 点 。 

口 最 短 加 权 路 径 : 与 最 短路 径 非常 相似 ， 但 它 的 目标 不 是 找 出 连接 两 个 节点 的 最 短 的 边 的 
序列 。 对 于 序列 中 边 的 权重 ， 我们 会 定义 某 种 函数 比如 权重 的 和 )， 并 使 这 个 函数 的 值 
最 小 化 。Google Maps 计 算 两 点 之 间 的 最 短 驾 驶 距离 时 ， 就 是 在 解决 这 种 问题 。 

口 最 大 团 : 团 是 一 个 节点 集合 ， 集 合 中 每 两 个 节点 之 间 都 有 一 条 边 。 "最 大 团 是 一 个 图 中 规 

模 最 大 的 团 。 

口 最 小 害 : 在 一 个 图 中 ， 给 定 两 个 节点 集合 ， 割 就 是 一 个 边 的 集合 。 去 掉 这 组 边 之 后 ， 一 
个 节点 集合 中 的 每 个 节点 和 男 一 个 节点 集合 中 的 每 个 节点 之 间 都 不 存在 任何 相连 的 路 
径 。 最 小 割 就 是 这 样 一 个 最 小 的 边 的 集合 。 


12.2.2 ”最 短路 径 : 深度 优先 搜索 和 广度 优先 搜索 


社交 网 络 由 个 体 和 个 体 之 间 的 关系 组 成 。 通常 可 以 用 图 对 其 进行 建 模 ,， 节 点 表示 个 体 , 边 表 
示 关 系 。 如 果 关 系 是 对 称 的 ， 边 就 是 无 向 的 ;如果 关 系 是 不 对 称 的 ， 边 就 是 有 向 的 。 有 些 社交 网 
络 还 会 对 多 种 关系 进行 建 模 ， 在 这 种 情况 下， 会 对 边 进 行 标注 以 表示 各 种 不 同 的 关系 。 

1990 年 ， 剧 作家 约翰: 奎 尔 创作 了 《六 度 分 离 》 这 部 戏剧 基于 一 个 不 怎么 令 人 信服 的 前 





























































































































































































































Qz 这 个 概念 非常 类 似 于 社会 中 的 圈子 ， 即 彼此 之 间 联 系 非常 紧密 但 对 其 他 人 持 排斥 态度 的 一 群 人 。 例 如 电影 《 希 德 
姊妹 帮 》。 
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提 :“ 这 个 星球 上 的 所 有 人 之 间 只 隔 着 六 个 人 。” 奎 尔 认 为 ， 如 果 我 们 想 通 i 











有 过 “认识 ”这 个 关系 





建立 一 个 包括 地 球 上 所 有 人 的 社交 网 络 , 那么 任意 两 个 个 体 之 间 的 最 短路 径 至 多 只 会 穿 过 六 个 


其 他 节点 。 


男 一 个 更 现实 一 些 的 问题 是 ，Facebook 上 具有 “朋友 ”关系 的 两 个 人 之 间 的 距离 。 例 如 ， 你 











会 很 想 知 道 ,你 是 否 有 这 样 
个 程序 来 回答 这 个 问题 。 
朋友 关系 ( 至 少 在 Facebook 上 ) 是 对 称 的 ， 例 如 ， 如 果 斯 带 芬 妮 是 安 德 烈 娅 的 朋友 ,那么 安 
























































一 个 朋友 , 他 的 朋友 的 朋友 的 朋友 是 米 友 ' 贾 格 尔 。 我 们 可 以 设计 一 





德 烈 娅 也 是 斯 蒂 芬 妮 的 朋友 。 因 此 ， 我 们 会 使 用 Graph 类 型 实现 这 个 社交 网 络 。 然 后 可 以 定义 寻 
找 你 和 米 元 ， 贾 格 尔 之 间 的 最 短 连接 的 问题 ， 如 下 所 示 。 























口 令 G 为 表示 朋友 关系 的 无 向 图 ; 
口 对 于 G， 找 到 一 个 最 短 的 节点 序列 [你 ，…… ， 米 克 ， ， 使 得 : 


中 两 个 连续 的 节点 ， 那么 G 中 有 一 条 边 连接 n; 和 ni 


12-9 包 含 一 


个 递归 函数 ， 可 以 在 一 个 Digraph 对 象 中 找 出 start 和 end 



































如 果 nj; 和 nii1 是 路 径 


两 个 节点 之 间 的 最 短 


路 径 。 因 为 Graph 是 Digraph 的 子 类 ， 所 以 这 个 函数 也 适用 于 我 们 的 Fackbook 问 题 。 





def 


def 


def 





printPath(path) : 
"" 假 设 path 是 节点 列表 """ 
result = "" 
for i in range(len(path)): 
result = result + str(path[i]) 
if i != len(path) - 1: 
result = result + '->" 
return result 


DFS(graph, start, end, path, shortest, toPrint = False): 
"" 假 设 graph 是 无 向 图 ; start 和 end 是 节点 ; 
path 和 shortest 是 节点 列表 
返回 graph 中 从 start 到 end 的 最 短路 径 。""" 
path = path + [start] 
if toPrint: 
print('Current DFS path:', printPpath(path)) 
if start == end: 
return path 
for node in graph.childrenof(start) : 
if node not in path: #avoid cycles 





if shortest == None or len(path) < len(shortest): 
newPath = DFS(graph, node, end, path, shortest, 
toPrint) 
if newPath != None: 


shortest = newpPath 
return shortest 


shortestpath(graph, start, end, toPrint = False): 
"" 假 设 graph 是 无 向 图 ; start 和 end 是 节点 
返回 graph 中 从 start 到 end 的 最 短路 径 。""" 
return DFS(graph, start, end, [], None, toPrint) 














图 12-9 最短 路径 的 深度 优先 搜索 算法 
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DFS 消 数 实现 的 算法 是 递归 形式 的 深度 优先 搜索 算法 。 一 般 地 ， 深 度 优先 搜索 算法 开始 时 ， 
会 先 选择 起 始 节 点 的 一 个 子 节 点 , 然后 再 选择 这 个 子 节点 的 一 个 子 节点 ,以 此 类 推 ,， 直 到 到 达 目 
标 节点 或 者 一 个 没有 子 节 点 的 节点 。 然 后 ,搜索 开始 回溯 ,返回 到 最 近 一 个 没有 访问 过 的 带 有 子 
节点 的 节点 。 人 遍历 所 有 路 径 之 后 ， 算 法 就 可 以 选择 一 个 从 起 点 到 终点 的 最 短路 径 ( 如果 有 )。 
与 我 们 刚才 描述 的 算法 相 比 , 代码 实现 更 复杂 一 些 , 因为 代码 要 处 理 图 中 包含 循环 路 径 的 可 
能 性 。 当 路 径 长 度 已 经 超过 当前 最 短路 径 时 ， 就 不 用 继续 探索 这 条 路 径 了 。 
口 函数 shortestpPath 使 用 path == [ ] (表示 当前 探索 过 的 路 径 为 空 ) 和 shortest == None 
(表示 没有 发 现 从 start 到 end 的 路 径 ) 作为 参数 调用 函数 DFs; 
口 DFs 函 数 开 始 时 先 选 择 start 节 点 的 一 个 子 节 点 ， 然 后 选择 这 个 子 节点 的 一 个 子 节点 ， 以 
此 类 推 ， 直 到 到 达 end 节 点 或 者 所 有 子 节点 均 得 到 访问 的 节点 ; 
上 四 检查 if node not in path 可 以 防止 程序 陷入 死 循环 ; 
晶 检查 if shortest == None or len(path) < len(shortest) 可 以 确定 如 果 继 续 搜索 
这 条 路 径 ， 是 否 可 能 找到 一 条 比 当 前 最 短路 径 还 短 的 路 径 ; 
和 如 果 可 以 继续 搜索 ，DFS 就 进行 递归 调用 。 如 果 找 到 一 条 到 达 end 节 点 的 不 长 于 当前 最 
短路 径 的 路 径 ， 就 更 新 shortest; 
和 如 果 path 中 最 后 一 个 节点 没有 子 节 点 可 供 访问 ， 程 序 就 回溯 到 前 一 个 访问 过 的 节点 ， 
访问 这 个 节点 的 另 一 个 子 节点 ; 
口 探索 完 start 和 end 之 间 所 有 可 能 的 最 短路 径 后 ， 函 数 返 回 。 
图 12-10 中 的 代码 测试 了 图 12-9 中 的 代码 。 函 数 testSP 首 先 建立 了 一 个 和 图 片 中 一 样 的 有 向 
图 ， 然 后 搜索 节点 0 和 节点 $ 之 间 的 最 短路 径 。 







































































def testSP( ) : 
nodes = [] 

name in range(6): #Create 6 nodes 

nodes.append(Node(str(name))) 

Digraph() 

n in nodes: 

g.addNode(n) 
.addEdge(Edge(nodes[8],nodes[1])) 
addEdge(Edge(nodes[1],nodes[2])) 
addEdge(Edge(nodes[2],nodes[3])) 
addEdge(Edge(nodes[2],nodes[4])) 
addEdge(Edge(nodes[3],nodes[4])) 
addEdge(Edge(nodes[3],nodes[5])) 
addEdge(Edge (nodes[8],nodes[2])) 
addEdge(Edge(nodes[1],nodes[8])) 
addEdge(Edge (nodes[3],nodes[1])) 
addEdge(Edge(nodes[4],nodes[8])) 
sp = shortestPpath(g, nodes[@], nodes[5], toPrint = True) 
print('Shortest path is', printPpath(sp)) 








8 

8. 
8- 
8: 
8. 
8. 
8: 
8: 
8. 
8: 








图 12-10 测试 深度 优先 搜索 代码 
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运行 函数 testsP 会 生成 以 下 输出 : 


Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 
Current 


DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 
DFS 


path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 
path: 


Shortest path is 

请 注意 ,探索 完 路 径 e->1->2->3->4 后 ， 困 数 返回 到 节点 3， 并 探索 路 径 ge->1->2->3->5。 将 
其 保存 为 当前 最 短路 径 后 ， 函 数 返 回 到 节点 2， 并 探索 路 径 e->1->2->4。 末 数 到 达 这 条 路 径 的 终 
点 (节点 4) 时 ， 会 一 直 回溯 到 节点 0， 然 后 沿 着 从 0 到 2 的 那 条 边 继续 探索 ， 以 此 类 推 。 

图 12-9 中 实现 的 DFS 算 法 可 以 找 出 边 数 最 少 的 路 径 。 如 果 边 具有 权重 ， 那 么 这 个 算法 无 法 找 
出 边 上 权重 总 和 最 小 的 路 径 ， 但 只 要 稍 加 改动 即 可 。 

当然 ,除了 深度 优先 之 外 , 还 有 其 他 方式 对 图 进行 遍历 。 另 一 种 常用 的 方法 称 为 广度 优先 搜 
索 。 广 度 优先 搜索 会 先 访问 起 始 节点 的 所 有 子 节点 ， 如 果 这 些 子 节 点 都 不 是 最 终 节 点 ， 就 继续 访 
问 每 个 子 节点 的 所 有 子 节点 , 以 此 类 推 。 深度 优先 搜索 经 常 使 用 递归 实现 , 广度 优先 搜索 则 不 同 ， 
它 一 般 使 用 迭代 来 实现 。BFS 会 同时 探索 多 条 路 径 ， 每 次 迭代 向 每 条 路 径 添 加 一 个 节点 。 由 于 算 
法 生成 路 径 时 是 按照 长 度 升 序 进 行 的 , 所 以 第 一 次 找到 的 最 终 节点 为 目标 节点 的 路 径 一 定 具 有 最 





少数 量 的 边 。 








9 
9->1 
0->1->2 
0->1->2->3 
0->1->2->3->4 
0->1->2->3->5 
0->1->2->4 
0->2 
0->2->3 
0->2->3->4 
0->2->3->5 
0->2->3->1 
0->2->4 
0->2->3->5 














图 12-11 中 的 代码 使 用 广度 优先 搜索 在 一 个 有 向 

















图 中 找 出 最 短路 径 。 变量 pathQueue 保 存 当 前 


已 经 探索 的 所 有 路 径 。 每 次 欠 代 都 先 从 pathQueue 中 删除 一 条 路 径 ， 并 把 这 条 路 径 赋 给 变量 


tmpPath 。 如 


建 一 个 新 的 路 径 集合 




















叫 ， 


会 被 添加 到 pathQueue。 





果 tmpPath 的 最 后 一 个 节点 是 end， 那 么 tmpPath 就 是 最 短路 径 ， 并 被 返回 。 和 否则 创 
其 中 的 每 条 路 径 都 是 tmpPath 加 上 它 的 一 个 子 节点 而 构成 的 。 这 些 新 路 径 
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def BFS(graph, start, end, toPrint = False): 
"" "假设 graph 是 无 向 图 ; start 和 end 是 节点 
返回 graph 中 从 start 到 end 的 最 短路 径 。""" 
initpath = [start] 
pathQueue = [initPath] 
if toPrint : 
print('Current BFS path:', printpath(path)) 
while len(pathQueue) != 6: 
#Get and remove oldest element in pathQueue 
tmpPath = pathQueue.pop(6) 
print('Current BFS path:', printpath(tmpPpath)) 
lastNode = tmpPath[-1] 
if lastNode == end : 
return tmpPath 
for nextNode in graph.childrenof(lastNode): 
if nextNode not in tmpPath : 
newPath = tmpPath + [nextNode] 
pathQueue.append(newPath ) 





return None 














图 12-11 最短 路径 的 广度 优先 搜索 算法 
如 果 向 函数 testsP 的 末尾 添加 如 下 代码 : 


sp = BFS(g, nodes[8], nodes[5]) 
print('Shortest path found by BFS:', printPpath(sp)) 


运行 后 会 输出 : 


Current DFS path: 6 

Current DFS path: 6->1 

Current DFS path: 6->1->2 
Current DFS path: 6->1->2->3 
Current DFS path: 6->1->2->3->4 
Current DFS path: 6->1->2->3->5 
Current DFS path: 6->1->2->4 
Current DFS path: 6->2 

Current DFS path: 6->2->3 
Current DFS path: 6->2->3->4 
Current DFS path: 6->2->3->5 
Current DFS path: 6->2->3->1 
Current DFS path: 6->2->4 
Shortest path found by DFS: 6->2->3->5 
Current BFS path: 6 

Current BFS path: 6->1 

Current BFS path: 6->2 

Current BFS path: 6->1->2 
Current BFS path: 6->2->3 
Current BFS path: 6->2->4 
Current BFS path: 6->1->2->3 
Current BFS path: 6->1->2->4 
Current BFS path: 6->2->3->4 
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Current BFS path: 6->2->3->5 
Shortest path found by BFS: 6->2->3->5 


令 人 欣慰 的 是 ,每 种 算法 找 出 的 路 径 都 具有 相同 的 长 度 。 在 本 例 中 , 两 种 算法 找 出 的 是 同样 
的 路 径 。 但 如 果 图 中 两 个 节点 之 间 的 最 短路 径 不 止 一 条 ,那么 DFS 和 BFS 就 不 一 定 会 找 出 同样 的 
最 短路 径 。 

如 上 所 述 ， 如 果 要 找 出 一 条 边 数 最 少 的 路 径 ， 那 么 BFS 更 方便 ， 因 为 它 第 一 次 找到 的 路 径 就 
一 定 是 这 样 的 路 径 。 


实际 练习 : 假设 有 一 个 带 有 加 权 边 的 有 向 图 ,那么 使 用 BFS 找 到 的 第 一 条 路 径 一 定 是 边 的 权 
重 总 和 最 小 的 路 径 吗 ? 
































动态 规划 











动态 规划 由 理 查 德 贝尔 曼 在 20 世 纪 50 年 代 发 明 。 请 不 要 从 这 项 技术 的 名 称 中 推测 任何 细 
节 。 正 如 贝尔 曼 自 己 所 说 ,之 所 以 选择 “动态 规划 ”这 个 名 称 , 是 为 了 在 申请 政府 资助 基金 时 隐藏 
某 些 事实 ,“ 事 实 就 是 我 其 实 是 在 搞 数 学 …… 没 有 一 个 国会 议员 会 反对 的 《动态 规划 这 个 词 了 。” 

动态 规划 是 一 种 非常 高 效 的 方法 ,适用 于 解决 具有 重复 子 问题 和 最 优 子 结构 的 问题 。 幸 运 的 
是 ， 很 多 最 优化 问题 都 表现 出 这 些 特 性 。 

如 果 一 个 问题 的 全 局 最 优 解 可 以 通过 组 合 局 部 子 问题 的 最 优 解 求 出 , 那么 这 个 问题 就 具有 最 
尖子 结构。 我 们 已 经 见 过 一 些 这 样 的 问题 ， 比 如 归并 排序 。 归 并 排序 对 一 个 列表 进行 排序 的 方式 
就 是 先 对 子 列表 进行 排序 ， 然 后 再 合并 子 列表 的 排序 结果 。 

如 果 求 出 一 个 问题 的 最 优 解 时 需要 对 同样 的 某 个 问题 求解 多 次 , 那么 这 个 问题 就 具有 重 登 子 
问题 。 归 并 排序 没有 表现 出 这 个 特性 , 尽管 我 们 会 进行 多 次 合并 , 但 每 次 合并 的 都 是 不 同 的 列表 。 

0/1 背 包 问 题 具 有 这 两 个 特性 ， 尽 管 不 太 明 显 。 人 然而， 我们 要 先 看 一 个 更 明显 具有 最 优 子 结 
构 和 重生 子 问 题 的 问题 。 


13.1 又 见 斐 波 那 契 数 列 


在 第 4 章 中 ， 我 们 介绍 了 一 个 很 直观 的 斐 波 那 契 数 列 的 递归 实现 : 


def fib(n) : 
"”" "假设 n 是 非 负 整数 
返回 第 n 个 斐 波 那 契 数 ”"" 
if n ==0 orn ==1: 
return 1 
else: 
return fib(n-1) + fib(n-2) 


虽然 这 个 递归 实现 是 正确 的 , 但 效率 太 差 。 例 如 ， 试 着 计算 fib(126), 但 不 要 傻 傻 地 等 
到 计算 结束 。 这 个 实现 的 复杂 度 推导 起 来 有 些 困 难 ， 但 大 概 是 O(fib(n))。 也 就 是 说 ,复杂 度 
的 增长 与 函数 结果 的 增长 成 正比 ， 而 斐 波 那 契 数列 的 增长 速度 非常 快 。 举 例 来 说 ，fib(126) 






























































































































































GD 引 自 斯 图 尔 特 ' 德 雷 福 斯 的 文章 “Richard Bellman on the Birth of Dynamic Programming”，Operations Research, vol. 
50. no.1 (2002). 
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是 8 670 007 398 507 948 658 051 921。 
如 果 每 次 递归 调用 需要 1 纳 秒 ， 那 么 fib(126) 需 要 250 000 年 才能 结束 。 
我 们 得 搞 清 楚 为 什么 会 这 么 慢 。fib 函 数 只 有 窒 窒 几 行 代码 , 很 明显 问题 出 在 fib 函 数 调用 自 
己 的 次 数 上 。 举 个 例子 ， 我 们 看 一 下 fib(6) 的 调用 树 ， 如 图 13-1 所 示 。 


fib() | | mbo)| | foo| | mo 
fib(1) fib(1) | | fb 


















































图 13-1 递归 形式 的 斐 波 那 契 调 用 树 








请 注意 ， 我 们 在 一 遍 又 一 遍地 计算 同一 个 值 。 例 如 ，fib(3) 被 调用 了 3 次 ， 而 且 每 一 次 调用 

又 引发 了 对 fib 消 数 的 另外 4 次 调用 。 很 容易 就 能 想到 ， 可 以 将 fib 隐 数 的 第 一 次 调用 结果 保存 下 
来 , 然后 在 需要 的 时 候 直 接 查 找 ， 而 不 是 重新 计算 。 这 种 方法 称 为 备忘录 法 ,是 动态 规划 的 核心 
思想 。 
图 13-2 给 出 了 一 个 基于 备忘录 法 的 斐 波 那 契 函数 的 具体 实现 。 函 数 fastFib 中 有 一 个 参数 
memo ， 用 来 记录 已 经 计算 过 的 函数 值 ， 这 个 参数 的 默认 值 是 一 个 空 字典 ， 所 以 fastFib 的 客户 代 
码 不 用 给 它 提 供 初始 值 。 当 使 用 一 个 大 于 1 的 整数 "调用 fastFib 时 , fastFib 会 先 在 memo 中 寻找 n， 
如 果 没 有 找到 ( 因为 这 时 是 第 一 次 使 用 这 个 值 调用 fastFib ), 就 会 抛 出 一 个 异常 。 此 时 , fastFib 
就 使 用 标准 的 斐 波 那 契 递 推 公式 ， 并 将 结果 保存 在 memo 中 。 


















































def fastFib(n，memo = {}): 
"”" "假设 n 是 非 负 整数 ，memo 只 进行 递归 调用 返回 第 n 个 斐 波 那 契 数 """ 
if n == 0 or n == 1: 
return 1 
try: 
return memo[n] 
except KeyError: 
result = fastFib(n-1, memo) + fastFib(n-2, memo) 
memo[n] = result 
return result 























图 13-2 ”使 用 备忘录 法 的 斐 波 那 契 数列 实现 
如 果 你 试 着 运行 fastFib ,会 发 现 它 确实 非常 快 :几乎 会 立刻 返回 第 120 个 斐 波 那 契 数 列 的 值 。 
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那么 fastFib 的 复杂 度 如 何 呢 ?” 对 于 从 0 到 n 的 每 一 个 整数 ， 它 都 上 只 计算 一 次 数列 值 。 因 此 ， 基 于 
字典 查找 可 以 在 常数 时 间 内 完成 这 一 假设 ，fastFib(n) 的 复杂 度 为 O(n)。” 


13.2 ”动态 规划 与 0/1 背包 问题 


在 第 12 章 中 ， 我 们 介绍 过 一 种 最 优化 问题 ， 妈 0/1 背包 问题 。 回 忆 一 下 ， 我 们 还 介绍 了 一 种 复 
杂 度 为 O(nlog(n)) 的 贪 梦 算法 ,但 这 种 算法 不 能 保证 找到 最 优 解 。 除 此 之 外 ， 我 们 还 介绍 了 一 种 可 
以 保证 找到 最 优 解 的 暴力 算法 , 但 运行 时 间 是 指数 增长 的 。 最 后 , 我 们 讨论 了 这 种 问题 本 质 上 的 复 
杂 度 ， 它 与 输入 规模 成 指数 关系 。 在 最 差 情形 下 ， 和 需要 遍历 所 有 可 能 的 答案 才能 找 出 最 优 解 。 

幸运 的 是 ,事情 还 有 转机 。 动 态 规划 可 以 提供 一 种 实用 的 方法 ,在 合理 的 时 间 内 解决 大 部 分 
0/1 背 包 问 题 。 作 为 推导 解决 方案 的 第 一 步 ， 我 们 先 基于 穷 举 法 得 到 一 个 指数 级 别 的 解法 。 核 心 
思想 就 是 构造 一 个 根 二 又 树 ， 枚 举 所 有 满足 重量 约束 的 状态 ， 从 而 探索 可 行 解 空间 。 

根 二 又 树 是 一 个 无 环 有 向 图 ， 其 中 : 
口 只 有 一 个 没有 父 广 点 的 节点 ， 称 为 根 ; 
口 每 个 非 根 节 点 都 有 且 只 有 一 个 父 节 点 ; 
D 每 个 节点 最 多 有 两 个 子 节点 。 没 有 子 节点 的 节点 称 为 叶 节 点 。 

在 0/1 背 包 问题 的 搜索 树 中 ， 每 个 节点 都 使 用 一 个 四 元 组 进行 标注 ， 这 个 四 元 组 表示 的 是 这 
种 背包 问题 的 一 个 局 部 解 。 四 元 组 中 的 四 个 元 素 如 下 : 
口 要 带 走 的 物品 集合 ; 
口 还 没有 决定 是 否 要 带 走 的 物品 列表 ; 
口 要 带 走 的 物品 集合 中 的 物品 总 价值 (这 个 值 只 是 为 了 优化 算法 ， 因 为 可 以 从 集合 中 计算 
出 这 个 值 ); 
口 背包 的 剩余 空间 ( 这 也 同样 是 一 种 算法 优化 方式 ， 因 为 这 个 值 可 以 通过 背包 人 允许 的 总 重 

量 减 去 当前 要 带 走 的 物品 总 重量 计算 出 来 )。 

这 个 树 是 从 根 节 点 开始 ， 自 项 向 下 地 构建 出 来 的 。 我们 从 待定 物品 中 选择 出 一 个 ， 如 果 音 
包 放 得 下 这 个 物品 ， 就 建立 一 个 节点 ， 反 映 出 选择 带 走 这 个 物品 的 后 果 。 按 照 惯例 ,我 们 将 这 个 
节点 作为 左 子 节点 ， 而 用 右 子 节点 表示 不 带 走 这 个 物品 的 后 果 。 以 递归 方式 不 断 执行 这 个 过 程 ， 
直到 背包 被 装 满 或 者 没有 待定 物品 。 因 为 每 条 边 都 表示 一 个 决策 ( 带 走 或 不 带 走 某 个 物品 )， 所 
以 这 种 树 称 为 决策 树 。” 

图 13-3 中 是 一 个 表示 物品 集合 的 表格 。 




















































































































尽管 这 个 实现 非常 酷 ， 在 教学 上 也 非常 有 趣 ， 但 还 不 是 实现 斐 波 那 契 数列 的 最 好 方法 。 还 有 一 个 可 以 在 线性 时 间 

内 完成 的 简单 迭代 实现 。 

@) 把 根 放 在 树 的 最 上 面 看 起 来 很 奇怪 ， 但 这 就 是 数学 家 和 计算 机 科学 家 通常 用 来 画 树 的 方式 。 或 许 通 过 这 个 证 据 可 

看 出 他 们 非常 “ 宅 "， 不 太 接 触 大 自然 。 

@) 决策 树 不 一 定 是 二 又 树 ， 它 提供 了 一 种 结构 化 的 方式 ， 表 示 按 次 序 做 出 一 系列 决策 的 后 果 。 很 多 领域 都 广泛 应 用 
决策 树 。 
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名 称 值 重量 
a 6 3 
b 7 3 
C 8 2 
d 9 5 
图 13-3” 带 有 价值 和 重量 的 物品 表 








13-4 给 出 一 个 决策 树 ， 在 背 


能 够 容纳 的 最 大 重量 为 5 的 假设 之 下 ， 可 以 确定 应 该 带 走 哪 


些 物 品 。 树 的 根 节点 ( 节点 0 ) 有 一 个 标签 <{}，[a，b，c，d]，6，5>， 表 示 没 有 选择 物品 ， 所 
有 物品 都 处 于 待定 状态 ， 带 走 的 物品 总 值 为 0， 青 包 剩 余 空 间 还 能 容纳 的 重量 为 5。 节 点 1 表示 物 


没有 左 子 节点 ， 因 为 物品 b 的 重量 为 3， 不 能 放 在 背包 中 。 





0: {}, [a,b,c,d], 0, 5 


























6: {}, [b,c,d], 0, 5 







人 从 


品 a 被 带 走 ， 物 品 [b，c，d] 处 于 待定 状态 ， 带 走 的 物品 总 值 为 6， 背 包 还 色 


E 合 







































2: {a}, [c,d], 6, 2 
3: {a,c}, [d], 14, 0| | 4: {a}, [dl, 6, 2 | | 8: {b,c}, [d], 15, 0 | | 9: {b}, [d], 7, 2 | 12: {c}, [d], 8, 3 | 14: {}, [d], 0, 5 | 
Ns \ AN 

















5: {a}, [], 6, 2 


10: {b}, [], 7， a| | 13: {c}, [], 8, 3 














区 {d}, [], 9 


,0 | 16: 0,[], 0,5 











图 13-4 ”背包 问题 的 决策 树 
图 13-4 中 ， 每 个 节点 中 冒号 前 面 的 数字 表示 生成 节点 的 一 种 顺序 。 这 个 图 中 的 顺序 称 为 左 侧 


深度 优先 。 在 每 个 节点 上 ,我 们 都 先 试图 生成 左 子 节点 ， 如 果 不 行 ， 
还 是 不 行 ， 就 返回 上 一 个 节点 ( 父 节 点 ) 并 重复 这 个 过 程 。 最 后 , 我 们 生成 了 根 节点 的 所 有 后 代 








才 试 图 生成 右 子 节点 。 如 时 


纳 2 的 重量 。 节 点 1 


日 





~ 


节点 ， 过 程 停止 。 这 个 过 程 停止 后 ,已 经 生成 了 可 以 放 进 背包 的 所 有 物品 组 合 ， 带 有 最 大 价值 的 
任意 一 个 叶 节 点 都 可 以 表示 一 个 最 优 解 。 请 注意 , 对 于 每 个 叶 节 点 , 或 者 第 二 个 元 素 为 空 列表 ( 表 























归 实 现 。 图 13-5 就 给 出 了 这 样 一 种 实现 方法 。 


一 已 


示 没 有 物品 可 以 考虑 是 否 带 走 )， 或 者 第 四 个 元 素 为 0 ( 表示 背 
不 出 所 料 〈 特别 是 如 果 你 读 了 第 12 章 的 话 )， 这 种 深度 优先 的 树 搜 索 可 以 顺 到 





包 中 已 经 没有 剩余 空间 )。 
成 章 地 使 用 递 
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def maxVal(toConsider, avail): 
""" 假 设 toConsider 是 一 个 物品 列表 ，avail 表 示 重 量 
返回 一 个 元 组 表示 86/1 背包 问 题 的 解 ， 包 括 物品 总 价值 和 物品 列表 """ 
if toConsider == [] or avail == 6: 
result = (6，()) 
elif toConsider[6].getNeight() > avail: 
# 探 索 右 侧 分 支 
result = maxVal(toConsider[1:], avail) 
else: 
nextItem = toConsider[6] 
# 探 索 左 侧 分 支 
withVal，withToTake = maxVal(toConsider[1:]， 
avail - nextItem.getweight()) 
withVal += nextItem.getValue() 
# 探 索 右 侧 分 支 
withoutVal, withoutToTake = maxVal(toConsider[1:], avail) 
# 选 择 更 好 的 分 支 
if withVal > withoutVal: 
result = (withVal, withToTake + (nextItem,)) 
else: 
result = (withoutVal, withoutToTake) 
return result 

















图 13-5 ”使 用 决策 树 解决 背包 问题 


这 个 实现 使 用 了 图 12-2 中 的 Item 类 。 函数 maxVal 返 回 两 个 值 , 选 定 的 物品 集合 以 及 这 些 物品 
的 总 价值 。maxVal 有 两 个 参数 ,分别 对 应 于 树 节 点 标注 中 的 第 二 个 和 第 四 个 元 素 : 
口 toconsider: 树 中 上 层 节 点 (对 应 递归 调用 栈 中 前 面 的 调用 ) 还 没有 考虑 的 那些 物品 ; 
口 avail: 可 用 的 空间 数量 。 

请 注意 ， 在 maxVal 的 实现 中 ,没有 建立 决策 树 并 查找 最 优 节 点 ， 而 是 使 用 局 部 变量 result 
记录 当前 最 优 解 。 图 13-6 中 的 代码 可 以 用 来 测试 naxVal。 

运行 smallTest ( 它 使 用 了 图 13-3 中 的 值 ) 后 , 输出 以 下 结果 ， 表 示 图 13-4 中 的 节点 8 是 一 个 
最 优 解 : 

<C，8，2> 


<b，7，3> 
Total value of items taken = 15 


函数 buil1dManyItems 和 bigTest 可 以 使 用 一 组 随机 生成 的 物品 测试 naxval。 我 们 可 以 试 一 下 
bigTest(16) ， 再 试 一 下 bigTest(46)。 如 果 你 厌烦 了 漫长 的 等 待 ， 就 停止 程序 ， 扣 心 自问 到 底 
发 生 了 什么 。 

思考 一 下 刚才 探索 的 树 的 大 小 。 因 为 在 树 的 每 一 层 我 们 都 要 确定 是 否 带 走 一 个 物品 , 所 以 树 
的 最 大 深度 是 len(items)。 在 第 0 层 ， 我们 只 有 1 个 节点 ， 在 第 1 层 最 多 有 2 个 和 节点， 在 第 2 层 最 多 
有 4 个 节点 ， 在 第 3 层 最 多 有 8 个 节点 。 在 第 39 层 ， 我 们 最 多 有 2”” 个 节点 。 难 怪 程序 要 运行 那么 长 
时 间 ! 
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def smallTest(): 
names = ['a', 'b', 'c', 'd'] 
vals = [6, 7, 8, 9 
weights = [3, 3, 2, 5] 
Items = [] 
for i in range(len(vals)): 


val, taken = maxVal(Items, 5) 


for item in taken: 
print(item) 


de 


= 


items = [] 
for i in range(numItems): 
items.append(Item(str(i), 


return items 


de 


= 


bigTest(numItems): 
items = buildManyItems(numItems，16 
val, taken = maxVal(items，46) 
print('Items Taken') 
for item in taken: 

print(item) 





print('Total value of items taken =" 


print('Total value of items taken =" 


Items.append(Item(names[i], vals[i], weights[i])) 


，Val) 


buildManyItems(numItems, maxVal, maxWeight): 


random.randint(1, maxVal), 
random.randint(1, maxweight))) 


，16) 


，Vval) 




















图 13-6 ”测试 基于 决策 树 的 实现 


那么 该 怎么 做 呢 ? 首先 要 问 一 个 问题 , 这 个 程序 与 我 们 前 面 对 斐 波 那 契 数列 的 实现 是 否 有 共 
同 之 处 ” 尤其 是 ， 其 中 存在 最 优 子 结构 和 重 受 子 问题 吗 ? 
从 图 13-4 和 图 13-5 中 ， 都 可 以 看 出 最 优 子 结构 。 每 个 父 节 点 都 可 以 将 其 子 节 点 得 到 的 解 组 合 
起 来 , 得 出 以 这 个 父 节点 为 根 的 子 树 的 最 优 解 。 这 种 情况 反映 在 图 13-5 中 ,就 是 注释 # 选 择 更 好 的 











分 支 后 面 的 那些 代码 。 





程序 中 是 否 还 有 重 赫 子 问 题 呢 ? 乍 一 看 似乎 没有 。 在 树 的 每 一 层 , 我 们 考虑 的 都 是 不 同 的 可 




















用 物品 集合 ,这 说 明 如 果 确 实 存在 普通 的 重 释 子 问题 , 那么 它们 一 定 在 树 的 同一 层 。 实 际 上 ， 同 


一 层 的 每 个 节点 的 待定 物品 集合 确实 是 一 样 的 。 不过， 从 图 13-4 中 的 标注 可 以 看 出 ， 某 层 的 每 一 





























个 节点 的 待定 物品 集合 和 更 高 层 中 节点 的 待定 物品 集合 是 不 同 的 。 


考虑 一 下 每 个 节点 需要 解决 的 问题 。 这 个 的 问题 


就 是 ,在 给 定 剩余 可 月 


























定 物 品 集中 找到 一 个 最 优 的 物品 。 决 定 剩余 可 用 重量 的 不 是 划 





值 ， 而 是 带 走 的 物品 的 总 重量 。 所 以 ， 举 例 来 说 ,在 











图 13-4 中 ， 节 点 2 和 节点 











重量 的 情况 下 ， 从 竺 
# 走 的 具体 物品 或 带 走 的 物品 的 总 价 




















7 要 解决 的 实际 上 是 


同一 个 问题 : 在 给 定 剩余 可 用 重量 为 2 的 情况 下 , 确定 待定 物品 集合 [c, d] 中 应 该 带 走 哪个 物品 。 








图 13-7 中 的 代码 利用 最 优 子 结构 和 重 钱 子 问 题 ， 








为 0/1 背 包 问 题 提 供 了 


个 动态 规划 解决 方 





案 。 通 过 添加 一 个 附加 参数 memo， 记 录 已 经 解决 的 子 问题 的 解 。memo 是 使 月 
键 由 toconsider 的 长 度 和 剩余 可 用 重量 构成 ,表达 式 len(toConsider) 是 待定 物品 集合 的 一 种 简 
洁 表 示 ， 可 以 这 样 表示 的 原因 是 物品 总 是 从 列表 toconsider 的 同一 端 ( 前端 ) 被 移 除 。 









































日 字典 实现 的 ， 它 的 
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def fastMaxVal(toConsider, avail, memo = {}): 
"" "假设 toConsider 是 物品 列表 ，aVail 表 示 重 量 
memo 进 行 递归 调用 
返回 一 个 元 组 表示 8/1 背 包 问 题 的 解 ， 包 括 物 品 总 价值 和 物品 列表 """ 
if (len(toConsider), avail) in memo: 
result = memo[ (len(toConsider), avail)] 
elif toConsider == [] or avail == 6: 
result = (6, ()) 
elif toConsider[6].getNeight() > avail: 
# 探 索 右 侧 分 支 
result = fastMaxVal(toConsider[1:], avail, memo) 
else: 
nextItem = toConsider[08] 
# 探 索 左 侧 分 支 
withVal, withToTake =\ 
fastMaxVal(toConsider[1:], 
avail - nextItem.getWeight(), memo) 
withVal += nextItem.getValue() 
# 探 索 右 侧 分 支 
withoutVal, withoutToTake = fastMaxVal(toConsider[1:], 
avail, memo) 





# 选 择 更 好 的 分 支 
if withVal > withoutVal: 
result = (withVal, withToTake + (nextItem,)) 
else: 
result = (withoutVal, withoutToTake) 
memo[ (len(toConsider), avail)] = result 
return result 














上 


图 13-7 背包 问题 的 动态 规划 解法 











图 13-8 展 示 了 在 不 同 规模 的 问题 上 运行 代码 所 需 的 调用 次 数 。 调 用 次 数 的 增长 很 难 量化 , 但 
肯定 远 远 小 于 指数 增长 。" 但 是 为 什么 会 这 样 呢 ? 我 们 不 是 知道 0/1 背 包 问 题 本 质 上 与 物品 数量 成 
指数 关系 吗 ? 难道 我 们 找到 了 一 种 推翻 宇宙 基本 定律 的 方法 ” 当然 不 是 , 但 我 们 发 现 计 算 复杂 度 
是 一 个 微妙 的 概念 。” 






















































































len(ltems) Number of items selected Number of calls 
4 4 31 
8 6 337 
16 9 1 493 
32 12 3 650 
64 19 8 707 
128 27 18 306 
256 40 36 675 
图 13-8 ”动态 规划 解法 性 能 








@ 因为 228=- 340 282 366 920 938 463 463 374 607 431 768 211 456。 
@ 好 吧 ,“ 发 现 ” 这 个 词 可 能 言 过 其 实 了 。 人 们 其 实在 很 早 之 前 就 知道 这 个 。 你 可 能 在 第 9 章 就 明白 了 。 
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fastMaxVal 的 计算 时 间 是 由 函数 生成 的 不 同 的 <toConsider，avail1> 变 量 对 决定 的 。 因 为 下 
一 步 的 决策 只 取决 于 剩余 的 物品 和 已 经 带 走 的 物品 的 总 重量 。 

toconsider 中 可 能 的 值 的 数量 不 会 超过 len(items)。avail 中 可 能 的 值 的 数量 则 更 难 描述 ， 
它 的 上 界 应 该 是 背包 中 可 以 容纳 的 物品 的 不 同 总 重量 的 最 大 数量 。 如 果 背 包 最 多 容纳 xz 个 物品 ( 基 
于 背包 容量 和 可 用 物品 的 重量 ), 那么 avail 最 多 可 以 有 2" 个 不 同 的 值 。 理论 上 ,这 是 个 相当 大 的 
值 , 但 实际 情况 下 一 般 不 会 那么 大 。 即 使 背包 的 容量 很 大 ， 如 果 物 品 重量 来 自 一 个 相当 小 的 重量 
集合 ， 那 么 很 多 物品 集合 都 会 具有 相同 的 总 重量 ， 这 样 就 极 大 地 缩短 了 程序 运行 时 间 。 

这 样 的 算法 复杂 度 称 为 伪 多 项 式 复杂 度 , 对 于 这 个 概念 的 详细 解释 已 经 超出 了 本 书 范围 。 简 
言 之 ，fastMaxVal 的 复杂 度 与 表示 avail 可 能 值 所 需 的 位 数 成 指数 关系 。 

如 果 avail 的 值 来 自 一 个 相当 大 的 空间 ， 会 发 生 什么 事情 呢 。 将 图 13-6 中 bigTest 函 数 对 
maxVal 的 调用 修改 为 : 

val, taken = fastMaxVal(items，1666) 
这 时 ， 物 品 数量 为 256 时 ， 找 到 一 个 解 需 要 调用 1 802 817 次 。 

如 果 物 品 的 重量 来 自 一 个 非常 大 的 集合 , 又 会 出 现 什么 情况 呢 。 原 来 物品 可 能 的 重量 来 自 一 
个 正 整 数 集合 ， 我 们 可 以 将 其 修改 为 正 实数 集合 。 要 完成 这 个 操作 ， 可 以 将 buildManyItems 画 
数 中 的 以 下 代码 : 


items.append(Item(str(i), 
random.randint(1, maxVal), 
random.randint(1, maxWeight))) 
















































































替换 为 : 


items .append(Item(str(i)， 
random.randint(1, maxVal), 
random.randint(1, maxWeight)*random.random())) 


每 次 调用 函数 random.random( ) 时 ， 都 会 返回 一 个 0.0~1.0 的 随机 浮 点 数 ， 所 以 无 论 如 何 , 重量 的 
可 能 取 值 会 有 无 限 多 个 。 别 指望 这 最 后 一 个 测试 会 正常 结束 。 动 态 规 划 可 能 是 一 门 “奇迹 般 的 ” 
技术 ,这 只 是 从 这 个 词 的 一 般 意 义 上 来 说 的 "， 千 万 不 要 迷信 它 真能 带 来 奇迹 。 


13.3 ”动态 规划 与 分 治 算法 


与 分 治 算法 一 样 , 动态 规划 的 基础 也 是 先 解决 独立 的 子 问题 , 再 将 子 问 题 的 解 组 合 起 来 。 但 
是 ， 二 者 之 间 也 有 一 些 重要 的 不 同 之 处 。 

分 治 算法 的 基础 是 找到 规模 远 远 小 于 初始 问题 的 子 问题 。 例 如 , 归并 排序 的 工作 原理 是 在 每 
一 步 都 将 问题 规模 减 半 。 相 比 之 下 ,动态 规划 解决 的 子 问题 的 规模 只 稍稍 小 于 初始 问题 。 举 例 来 
说 ， 计 算 第 19 个 斐 波 那 契 数 并 不 是 一 个 规模 远 远 小 于 计算 第 20 个 斐 波 那 契 数 的 问题 。 

男 一 个 重要 的 区 别 是 ,分 治 算法 的 效率 并 不 取决 于 算法 结构 ,所 以 同样 的 问题 会 被 重复 解决 。 
相 比 之 下 ， 只 有 在 不 同 子 问题 的 数量 远 远 小 于 所 有 子 问题 的 数量 时 ， 动 态 规 划 才 是 有 效率 的 。 






















































































@ 非 同 寻常 并 且 能 带 来 受 人 欢迎 的 结果 。 
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本 书 的 主要 目标 是 使 用 计算 技术 解决 问题 。 到 现在 为 止 , 我 们 重点 关注 的 还 是 能 够 用 确定 性 
程序 解决 的 问题 。 对 于 一 个 程序 来 说 ,如 果 在 运行 时 只 要 使 用 同样 的 输入 就 能 产生 同样 的 输出 , 那 
么 这 个 程序 就 是 确定 性 的 。 确定 性 程序 用 处 特别 大 ， A 从 心 。 我 们 生活 的 
世界 中 有 很 多 种 情况 ， 要 想 准确 地 描述 它们 ， 只 能 使 用 随机 过 程 这 个 词 。” 一 个 过 程 ， 如 果 它 的 下 

一 个 状态 依赖 于 一 些 随机 因素 ， et 随机 过 程 的 结果 通常 是 不 确定 的 , 因此 ， 
我 们 很 少 对 随机 过 程 的 行为 做 出 明确 描述 , 而 是 对 它 可 能 的 行为 做 出 概率 上 的 描述 。 在 本 书 余下 的 
内 容 中 ， ee 人 很 多 这 种 程序 都 是 模拟 模型 。 

模拟 模型 会 模仿 实际 系统 的 活动 。 例 如 ， 图 8-11 中 的 代码 就 模拟 了 某 个 借款 人 的 一 系列 抵押 
贷款 还 款 。 我 们 可 以 将 代码 看 作 一 种 实验 设备 ， 称 为 模拟 模型 。 它 可 以 提供 一 些 有 价值 的 信息 
这 些 信息 是 关于 被 模拟 系统 的 可 能 的 行为 的 。 除 此 之 外 , 模拟 模型 还 经 常用 于 预测 一 个 实体 系统 
的 未 来 状态 ( 如 50 年 后 的 地 球 温度 )， 或 者 替代 那些 昂贵 的 、 费 时 的 或 非常 危险 的 实体 实验 (如 
修改 税法 带 来 的 影响 )。 

模拟 模型 与 其 他 模型 一 样 ， 只 是 对 现实 的 近似 ,这 一 点 非常 重要 ， 必 须 牢记 。 千 万 不 要 确信 
实际 系统 会 按照 模型 预测 的 方式 运行， 实际 上 , 我 们 通常 相当 确定 的 是 , 实际 系统 不 会 严格 按照 
模型 预测 运行 。 举 例 来 说 ， 并 非 每 一 个 ey 6 按时 偿还 抵押 贷款 。 有 人 句 名 言说 得 好 :“ 所 有 
模型 都 是 错误 的 ， 只 不 过 有 些 是 有 用 的 。” 



























































































































































14.1 随机 游 走 


1827 年 ， 苏 格 兰 植物 学 家 罗伯特 ' 布朗 观察 到 ， 悬 浮 在 水 中 的 花粉 颗粒 似乎 在 随机 地 运动 。 
对 这 种 后 来 钙 称 为 “布朗 运动 ”的 现象 ,他 当时 并 没有 给 出 合理 的 解释 ， 也 没有 尝试 使 用 数学 理 
论 对 其 建 模 。 ”1900 年 ， 路 易 ' 巴 舍利 耶 在 他 的 博士 论文 “The Theory of Speculation” 中 ， 第 一 























Qz 这 个 词 源 自 希腊 语 stokhastikos， 意 思 类 似 于 “能 预测 到 的 事情 ”。 正 如 我 们 将 看 到 的 ， 随 机 性 程序 的 目标 是 得 到 
一 个 好 的 结果 ， 但 不 能 保证 得 到 确定 的 结果 。 

@ 人 们 通常 认为 ， 这 句 话 来 自 统计 学 家 乔治 ，E.P 伯 克 斯 。 

@) 他 并 不 是 观察 到 这 种 现象 的 第 一 人 。 早 在 公元 前 60 年 ， 罗 马 诗人 提 图 斯 . 卢 克 莱 修 就 在 他 的 长 诗 On the Nature of 
Things 中 描述 了 类 似 的 现象 ， 甚 至 暗示 这 一 现象 是 由 原子 的 随机 运动 引起 的 。 
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次 明确 提出 了 关于 这 种 现象 的 数学 模型 。 但 是 , 由 于 这 篇 论文 研究 的 是 当时 为 人 所 不 齿 的 理解 金 
融 市 场 的 问题 ， 所 以 这 个 模型 几乎 完全 被 主流 学 术 界 忽视 了 。5 年 之 后 ， 年 轻 的 爱 因 斯 坦 通过 
个 与 巴 舍 利 耶 几 乎 完全 相同 的 模型 , 将 这 种 随机 思想 应 用 到 了 物理 学 领域 , 并 描述 了 如 何 使 用 这 
个 模型 确定 原子 的 存在 。 "由 于 某 种 原因 ， 人 们 好 像 认为 研究 物理 学 比 赚 钱 更 重要 ， 于 是 全 世界 
都 将 注意 力 放 在 物理 学 上 。 世 事 还 真是 无 常 啊 。 

布衣 运动 是 随机 游 走 的 一 种 。 随机 游 走 广泛 应 用 于 对 物理 过 程 ( 如 扩散 入 生物 过 程 ( 如 DNA 
在 异 源 双 链 中 替换 RNA 的 动力 学 过 程 ) 和 社会 过 程 ( 如 股市 走向 ) 的 建 模 。 

我 们 之 所 以 要 在 本 章 介绍 随机 游 走 ， 有 如 下 三 个 原因 。 
口 从 本 质 上 说 ， 随 机 游 走 非常 有 趣 ， 而 且 应 用 广泛 。 
口 它 为 我 们 提供 了 一 个 非常 好 的 示例 来 学 习 如 何 使 用 抽象 数据 类 型 和 继承 。 我 们 一 般 使 用 
抽象 数据 类 型 和 继承 对 程序 进行 结构 化 ， 一 个 特别 的 用 处 是 进行 模拟 建 模 。 
口 它 为 我 们 提供 了 一 个 非常 好 的 机 会 来 学 习 更 多 Python 语 言 特 性 ,并 可 以 演示 一 些 生成 图 形 

的 技术 。 


14.2 ” 醉 汉 游 走 


我 们 来 研究 一 个 真正 涉及 行走 的 随机 游 走 问题 。 一 个 酿 醒 大 醇 的 农夫 站 在 一 片 田 地 的 正中 
央 ， 他 每 秒 钟 都 会 向 一 个 随机 的 方向 迈 出 一 步 。 那 么 1000 秒 之 后 ， 他 与 原点 的 期 望 距离 是 多 少 ? 
如 果 他 走 了 很 多 步 ,那么 会 离 原 点 越 来 越 远 ,还 是 更 可 能 一 遍 又 一 遍地 走 回 原点 ,并 停留 在 附近 ? 
我 们 编写 一 个 模拟 模型 来 找 出 答案 。 

开始 设计 程序 之 前 , 最 好 先 直 观感 受 程序 要 进行 建 模 的 情形 。 我 们 先 使 用 笛 卡 儿 坐 标 系 对 这 
种 情形 建立 一 个 粗略 的 模型 。 假设 农夫 站 在 一 片 田地 中 ,田地 被 一 种 神秘 的 力量 切割 成 方 格 纸 的 
样子 。 青 假设 农夫 每 一 步 的 距离 都 是 一 个 长 度 单位 ， 而 且 方 向 平行 于 X 轴 或 者 Y 轴 。 



































































































































图 14-1 一 个 怪 怪 的 农夫 





QD On the movement of small particles suspended in a stationary liquid demanded by the molecular-kinetic theory of heat, 
Annalen der Physik, 1905 年 5 月 。 爱 因 斯 坦 将 1905 年 变 成 了 自己 的 “奇迹 之 年 ”。 在 这 一 年 , 除了 关于 布朗 运动 的 论 
文 ， 他 还 发 表 了 关于 光 的 产生 和 转化 的 论文 (量子 理论 发 展 的 关键 )、 动 体 的 电动 力学 的 论文 (狭义 相对 论 ) 和 
关于 质 能 等 价 的 论文 (5= me? )。 对 于 一 个 新 晋 博士 来 说 ， 这 绝对 是 不 错 的 一 年 。 
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图 14-1 中 ， 左 图 表示 一 个 农夫 "站 在 田地 中 央 , 筑 脸 表示 这 个 农夫 走出 一 步 之 后 可 能 的 位 置 。 
请 注意 , 走出 一 步 之 后 , 他 肯定 离 出 发 地 点 只 有 一 个 单位 的 距离 。 我 们 假设 他 从 初始 位 置 向 东 游 
荡 了 一 步 ， 那 么 他 走出 第 二 步 之 后 ， 离 原点 会 有 多 远 呢 ? 

看 一 下 右 图 中 的 笑脸 ， 可 以 看 出 ， 有 0.25 的 概率 距离 为 0 个 单位 ， 有 0.25 的 概率 距离 为 2 个 单 
位 ， 有 0.5 的 概率 距离 为 V2 个 单位 。 所 以 , 平均 来 看 , 他 走出 两 步 之 后 , 会 比 一 步 之 后 更 加 远离 
原点 。 那么 第 三 步 之 后 呢 ? 如 果 第 二 步 走 到 上 面 或 者 下 面 的 笑脸 , 那么 第 三 步 会 有 一 半 可 能 使 离 
原点 更 近 ， 也 有 一 半 可 能 离 原 点 更 远 。 如 果 第 二 步 走 到 左 侧 的 笑脸 ( 即 原点 )， 那 么 第 三 步 会 使 
农夫 离开 原点 。 如 果 第 二 步 走 到 右 侧 的 笑脸 ,那么 第 三 步 会 有 0.25 的 可 能 离 原点 更 近 ，0.75 的 可 
能 离 原 点 更 远 。 

看 上 去 似乎 醇 汉 走 的 步 数 越 多 , 与 原点 之 间 的 期 望 距离 就 越 远 。 我 们 可 以 继续 穷 举 各 种 可 能 
性 ， 对 距离 随 着 步 数 的 变化 也 会 有 一 个 相当 好 的 了 解 。 但 是 ,这 个 过 程 太 无 聊 了 ， 所 以 更 好 的 方 
法 是 写 一 个 程序 来 帮助 我 们 做 这 件 事 。 

开始 这 个 设计 过 程 时 ,我 们 应 该 先 设 计 一 些 数据 抽象 ， 帮 助 建立 这 个 模拟 模型 ， 这 些 数 据 抽 
象 也 可 能 应 用 于 其 他 类 型 的 随机 游 走 过 程 的 模拟 。 一 般 来 说 , 我 们 开发 出 的 新 数据 类 型 应 该 对 应 
于 建 模 情 形 中 出 现 的 对 象 。 这 个 情形 中 有 3 个 明显 的 类 型 : Location 、Field 和 Drunk。 我 们 介绍 
实现 这 些 类 型 的 类 时 ， 你 应 该 思考 每 个 类 在 我 们 即将 建立 的 模拟 模型 中 会 起 到 什么 作用 。 

我 们 从 图 14-2 中 的 Location 类 开始 , 这 个 类 虽然 简单 , 但 明确 体现 了 两 个 重要 的 决策 。 首 先 ， 
它 告 诉 我 们 这 个 模拟 中 最 多 只 有 两 个 维度 。 例 如 ， 模 拟 模 型 中 不 会 包含 高 度 的 变化 , 这 和 上 面 的 
图 形 是 一 致 的 。 其 次 ， 因 为 提供 给 deltax 和 deltaY 的 值 可 以 是 浮 点 数 ， 不 要 求 是 整数 ， 所 以 这 
个 类 没有 限制 醉 汉 可 能 的 移动 方向 。 这 就 对 前 面 的 非 正 式 模型 进行 了 扩展 。 在 那个 模型 中 ,每 一 
步 都 是 一 个 长 度 单位 ， 而 且 必 须 平行 于 X 轴 或 Y 轴 。 

图 14-2 中 的 Field 类 也 很 简单 ， 但 也 体现 了 一 些 值得 注意 的 决策 。 这 个 类 的 作用 是 将 醉 汉 与 
位 置 进行 映射 。 它 对 位 置 没 有 限制 ， 所 以 可 以 认为 Field 的 范围 是 无 限 的 。 它 允许 将 多 个 醉 汉 以 
位 置 随机 的 方式 添加 到 一 个 Fie1d 对 和 象 中 。 对 醉 汉 移动 的 方式 没有 任何 限制 ， 没 有 禁止 多 个 醉 汉 
出 现在 同一 位 置 ， 也 没有 禁止 一 个 醉 汉 穿 过 被 其 他 醉 汉 占据 的 空间 。 

图 14-3 中 的 Drunk 类 和 UsualDrunk 类 定义 了 醉 汉 在 田地 中 游 走 的 方式 。 特 别 地 ,UsualDrunk 
类 中 的 stepChoices 的 值 引 入 了 一 个 限制 ， 即 每 一 步 都 是 一 个 长 度 单位 ， 并 且 必 须 平行 于 X 轴 或 
Y 轴 。 因 为 函数 random.choice 随 机 返回 参数 序列 中 的 一 个 元 素 , 所 以 4 种 游 走 方式 都 具有 同样 的 
概率 , 而 且 不 受 上 一 次 游 走 的 影响 。 稍 后 会 介绍 Drunk 类 的 另 一 个 子 类 , 它 具 有 不 同 的 行为 方式 。 






















































































































































































@ 实话 实说 ， 图 中 人 是 一 个 冒充 农夫 的 演员 。 
@ 为 什么 是 V2 呢 ? 因 为 我 们 使 用 了 勾 股 定理 。 
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class Location(object): 
def _ init_ (self, x, y): 
wux 和 y 为 数值 型 """ 
self.x, self.y = x, y 


def move(self, deltaX, deltaY): 
"""deltaX 和 deltaY 为 数值 型 """ 
return Location(self.x + deltaX, self.y + deltaY) 


def getX(self) : 
return self.x 


def getY(self): 
return self.y 


def distFrom(self, other): 
ox, Oy = other.x, other.y 
xDist, ydist = self.x - ox, self.y - oy 
return (xDist**2 + yDist**2)**Q.5 


def _ str_ (self): 
return '<' + str(self.x) + ', "+ str(self.y) + '>' 


class Field(object): 
def _ init (self): 
self.drunks = {} 


def addDrunk(self, drunk, loc): 
if drunk in self.drunks: 
raise ValueError('Duplicate drunk') 
else: 
self.drunks[drunk] = loc 


def moveDrunk(self, drunk): 
if drunk not in self.drunks : 
raise ValueError('Drunk not in field') 
xDist, yDist = drunk.takestep() 
currentLocation = self.drunks[drunk] 
# 使 用 Location 的 move 方 法 获得 一 个 新 位 置 
self.drunks[drunk] = currentLocation.move(xDist, yDist) 


def getLoc(self, drunk): 
if drunk not in self.drunks : 
raise ValueError('Drunk not in field') 
return self.drunks[drunk] 





图 14-2”Location 类 和 Field 类 
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import random 


class Drunk(object): 

def _ init (self, name = None): 
"" "假设 name 是 字符 串 """ 
self.name = name 





def _ str_ (self) : 
if self != None: 
return self.name 
return “Anonymous 


class UsualDrunk(Drunk): 
def takeStep(self): 
stepChoices = [(8,1), (0,-1), (1, 0), (-1, 8)] 
return random.choice(stepChoices) 
return random.choice(stepChoices) 











图 14-3 ”定义 醉 汉 的 类 


下 一 步 就 是 使 用 这 些 类 建立 一 个 模拟 模型 来 回答 最 初 的 问题 。 图 14-4 给 出 了 模型 中 使 用 的 3 
个 函数 。 














def walk(f, d, numSteps): 
"" "假设 f 是 一 个 Field 对 象 ，d 是 f 中 的 一 个 Drunk 对 象 ，numSteps 是 正 整 数 。 
将 d 移 动 numSsteps 次 ; 返回 这 次 游 走 最 终 位 置 与 开始 位 置 之 间 的 距离 """ 
start = f.getLoc(d) 
for s in range(numSsteps): 
f.moveDrunk(d) 
return start.distFrom(f.getLoc(d)) 


def simWalks(numSteps, numTrials, dClass): 
""" 假 设 numSteps 是 非 负 整数 ，numTrials 是 正 整 数 ， 
dClass 是 Drunk 的 一 个 子 类 ， 
模拟 numTrials 次 游 走 ， 每 次 游 走 numSteps 步 。 
返回 一 个 列表 ， 表 示 每 次 模拟 的 最 终 距 离 """ 
Homer = dClass() 
origin = Location(6, 08) 
distances = [] 
for t in range(numTrials): 
f = Field() 
f.addDrunk(Homer, origin) 
distances.append(round(walk(f, Homer, numTrials), 1)) 
return distances 


def drunkTest(walkLengths, numTrials, dClass): 
"" "假设 WalkLengths 是 非 负 整数 序列 
numTrials 是 正 整 数 ，dClass 是 Drunk 的 一 个 子 类 
对 于 walkLengths 中 的 每 个 步 数 ， 运 行 numTrials 次 simNalks 函 数 ， 并 输出 结果 """ 
for numSteps in walkLengths : 
distances = simWalks(numSteps, numTrials, dClass) 
print(dClass. name , 'random walk of', numSteps, 'steps') 
print(' Mean =', round(sum(distances)/len(distances), 4)) 
print(' Max =', max(distances), 'Min =', min(distances)) 











图 14-4 ” (有 bug 的 ) 醉 汉 游 走 
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函数 walk 模 拟 了 numsteps 步 的 一 次 游 走 。 孔 数 simWalks 调 用 walk 模 拟 numTrials 次 游 走 ， 
每 次 numSteps 步 。 函 数 drunkTest 调 用 simwalks 模 拟 多 次 不 同 长 度 的 游 走 。 

simWalks 的 参数 dclass 是 一 个 class 类 型 , 用 于 在 函数 的 第 一 行 代码 中 创建 一 个 合适 的 Drunk 
子 类 。 然 后 ， 从 Field.moveDrunk 中 调用 drunk.takestep 时 ， 会 自动 选择 相应 子 类 中 的 方法 。 

函数 drunkTest 中 也 有 一 个 class 类 型 的 参数 dclass , 它 被 使 用 了 两 次 ,一 次 在 调用 simwalks 
时 , 一 次 在 第 一 条 print 语 句 中 。 在 print 语 句 中 , 使 用 class 类 型 的 内 置 属性 _name_ 得 到 一 个 
字符 串 ， 这 个 字符 串 就 是 类 名 。 

运行 drunkTest((16，168，1668，166686) ，1686，UsualDrunk) ， 输 出 以 下 结 
































UsualDrunk random walk of 16 steps 
Mean = 8.634 

Max = 21.6 Min = 1.4 

UsualDrunk random walk of 166 steps 
Mean = 8.57 

Max = 22.6 Min = 6.6 

UsualDrunk random walk of 1666 steps 
Mean = 9.266 

Max = 21.6 Min = 1.4 

UsualDrunk random walk of 16666 steps 
Mean = 8.727 

Max = 23.5 Min = 1.4 


这 真 出 乎 意料 ,根据 我 们 在 前 面 得 到 的 直观 印象 , 平均 距离 应 该 随 着 步 数 的 增加 而 增加 。 这 
个 结果 说 明 ， 或 者 我 们 的 直观 印象 是 错 的 ， 或 者 模拟 过 程 有 错误 ， 也 可 能 二 者 都 错 了 。 

首先 要 做 的 就 是 使 用 我 们 已 经 知道 答案 的 值 再 做 一 次 模拟 , 然后 确定 模拟 得 出 的 结果 是 否 与 
预期 结果 相 匹 配 。 我 们 试 一 下 走 0 步 ( 这 时 与 原点 之 间距 离 的 均值 、 最 小 值 和 最 大 值 都 是 0 ) 和 走 
1 步 ( 这 时 与 原点 之 间距 离 的 均值 、 最 小 值 和 最 大 值 都 是 1 ) 的 结果 。 

运行 drunkTest((6，1)，168，UsualDrunk) 后 ， 得 到 的 结果 今 人 难以 置信 : 


UsualDrunk random walk of 6 steps 
Mean = 8.634 

Max = 21.6 Min = 1.4 

UsualDrunk random walk of 1 steps 
Mean = 8.57 

Max = 22.6 Min = 6.6 


走 0 步 的 平均 距离 怎么 可 能 比 8 还 大 ”我 们 的 模拟 模型 中 肯定 至 少 有 一 个 bug。 进 行 了 一 番 调 查 之 
后 ,问题 清 楚 了 。 在 simwalks 中 ， 捕 数 调 用 walk(f, Homer, numTrials) 应 该 是 walk(f, Homer， 
numSteps ) 。 

这 件 事 给 了 我 们 一 个 非常 重要 的 教训 : 看 到 模拟 结果 时 ,永远 要 持 有 一 种 怀疑 态度 。 我 们 应 
该 扣 心 自问 ， 这 个 结果 是 否 真 的 合理 ， 还 要 使 用 对 结果 非常 有 把 握 的 参数 进行 “ 冒 烟 测 试 ”"。 












































































































































中 在 19 世 纪 ， 管 道 工 测试 封闭 管道 系统 的 一 种 标准 做 法 是 为 这 个 系统 充满 烟雾 。 后 来 ， 电 子 工程 师 使 用 这 个 术语 描 
述 对 某 种 电子 设备 的 首次 测试 一 一 接 通 电源 并 看 看 是 否 冒 烟 。 再 后 来 ,软件 开 发 者 开始 使 用 这 个 术语 描述 对 程序 
进行 一 次 快速 测试 ， 看 看 能 否 产生 有 用 的 结果 。 
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使 用 修正 过 的 模型 运行 那 两 个 最 简单 的 测试 时 ， 模 型 给 出 了 完全 符合 我 们 预期 的 答案 : 


UsualDrunk random walk of 6 steps 
Mean = 6.0 

Max = 6.6 Min = 6.6 

UsualDrunk random walk of 1 steps 
Mean = 1.6 

Max = 1.6 Min = 1.6 


现在 运行 步 数 更 多 的 游 走 测试 时 ， 会 输出 以 下 结 


UsualDrunk random walk of 16 steps 
Mean = 2.863 

Max = 7.2 Min = 6.6 

UsualDrunk random walk of 166 steps 
Mean = 8.296 

Max = 21.6 Min = 1.4 

UsualDrunk random walk of 1666 steps 
Mean = 27.297 

Max = 66.3 Min = 4.2 

UsualDrunk random walk of 16666 steps 
Mean = 89.241 

Max = 226.5 Min = 16.6 




















正如 我 们 所 料 ， 到 原点 的 平均 距离 会 随 着 步 数 的 增加 而 增加 。 

下 面 看 图 14-5 中 到 原点 的 平均 距离 的 统计 图 形 。 为 了 感觉 这 个 距离 增长 的 速度 ,我 们 在 图 中 
放置 了 一 条 直线 ,表示 步 数 的 平方 根 (并 将 步 数 提高 到 100 万 )。 从 图 14-5 中 可 以 看 出 ， 步 数 的 平 
方 根 和 到 原点 的 距离 都 是 一 条 直线 ， 因 为 我 们 在 两 个 坐标 轴 上 都 使 用 了 对 数 标 度 。 





距 原点 的 平均 距离 100 条 路 径 ) 
一 
步 长 的 平方 
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距 原点 的 距离 
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步 长 数 
图 14-5 到 出 发 点 的 距离 与 游 走 步 数 的 关系 


我 们 能 从 这 张 图 中 得 到 一 些 信息 , 来 预测 醇 汉 的 最 终 位置 吗 ? 这 张 图 确实 可 以 告诉 我 们 ,从 
平均 意义 上 来 说 , 酬 汉 应 该 位 于 以 原点 为 圆心 、 到 原点 的 期 望 距离 为 半径 的 圆 上 的 某 个 位 置 。 但 
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它 儿 乎 不 能 告诉 我 们 , 在 一 次 具体 的 游 走 结束 后 ， 我 们 在 哪个 确切 的 位 置 能 够 找到 醉 汉 。 下 一 六 


口 
会 继续 讨论 这 个 问题 。 


14.3 ”有 偏 随机 游 走 


既然 已 经 有 了 一 个 可 用 的 模拟 模型 ,我 们 就 可 以 对 其 进行 修改 来 研究 其 他 类 型 的 随机 游 
走 。 举 例 来 说 ,假设 要 研究 一 个 北半球 的 醉酒 的 农夫 行为 ， 他 讨厌 寒冷 ,喜欢 温暖， 即使 烂醉 
如 泥 ， 向 南方 进行 随机 移动 时 的 速度 还 是 其 他 方向 的 两 倍 。 或 者 有 一 个 喜欢 阳光 的 醉 汉 ， 总 是 
向 着 太阳 移动 (上午 向 东 ,， 下 午 向 西 )。 这些 都 属于 有 偏 随机 游 走 。 游 走 仍然 是 随机 的 , 但 结果 
是 有 偏 的 。 

图 14-6 定 义 了 Drunk 的 另外 两 个 子 类 。 每 个 子 类 都 定义 了 专门 的 方式 ， 为 stepChoices 选 择 
合适 的 值 。 函 数 simAl11 可 以 遍历 Drunk 的 子 类 序列 ， 并 对 每 个 子 类 的 行为 进行 模拟 ， 生 成 相应 
信息 
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class ColdDrunk(Drunk ) : 
def takeStep(self) : 
stepChoices = [(8.06,1.0), (6.06,-2.0), (1.06, 0.0),\ 
(-1.6，6.6)] 
return random.choice(stepChoices) 


class EWDrunk(Drunk): 
def takeSstep(self) : 
stepChoices = [(1.6，6.6)，(-1.6，6.6)] 
return random.choice(stepChoices) 


def simAll(drunkKinds, walkLengths, numTrials): 
for dClass in drunkKinds: 
drunkTest(walkLengths, numTrials, dClass) 














图 14-6 ”Drunk 基 类 的 子 类 
运行 以 下 代码 : 
simAll((UsualDrunk, ColdDrunk, EWDrunk), (1606, 166060), 106) 
会 输出 : 


UsualDrunk random walk of 166 steps 
Mean = 9.64 
Max = 17.2 Min = 4.2 
UsualDrunk random walk of 1666 steps 
Mean = 22.37 
Max = 45.5 Min = 4.5 
ColdDrunk random walk of 166 steps 
Mean = 27.96 
Max = 51.2 Min = 4.1 
ColdDrunk random walk of 1666 steps 
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Mean = 259.49 

Max = 320.7 Min = 215.1 

EWDrunk random walk of 166 steps 
Mean = 7.8 

Max = 16.6 Min = 6.6 

EWDrunk random walk of 1666 steps 
Mean = 20.2 

Max = 48.6 Min = 4.6 


看 上 去 追寻 温暖 的 醉 汉 离开 原点 的 速度 比 其 他 两 种 类 型 的 醉 汉 更 快 。 但 在 这 个 输出 中 , 要 想 领会 
所 有 信息 还 是 不 容易 的 。 我 们 再 次 将 文字 输出 放 在 一 边 ， 开 始 使 用 图 形 表示 结果 。 

因为 要 在 同一 张 图 中 表示 多 个 不 同类 型 的 醉 汉 , 所 以 要 为 每 种 类 型 的 醉 汉 关联 一 种 明确 的 样 
蝎 更 好 地 区 分 。 样 式 包含 以 下 3 部 分 内 容 : 
口 线 和 标记 的 颜色 ; 
口 标记 的 形状 ; 
口 线 的 类 型 ， 如 实 线 或 虚线 。 

图 14-7 中 的 styleIterator 类 是 一 个 迭代 器 ， 可 以 在 一 个 样式 序列 间 滚 动 轮换 ， 这 个 样式 序 
列 由 styleIterator. init 方法 的 参数 进行 定义 。 
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class styleIterator(object): 
def _ init (self, styles): 
self.index = 6 
self.styles = styles 


def nextStyle(self): 
result = self.styles[self.index] 
if self.index == len(self.styles) - 1: 
self.index = 6 
else : 
self.index += 1 
return result 











图 14-7 遍历 样式 


14-8 中 代码 的 结构 与 图 14-4 中 代码 的 结构 非常 相似 ,simDrunk 和 simA1l11 中 的 print 语 句 对 
模拟 结果 没有 丝毫 贡献 ， 使 用 print 语 句 是 因为 这 次 模拟 要 经 过 相当 长 的 时 间 才 能 结束 ， 时 不 时 
地 输出 一 些 消息 ,表示 程序 仍然 在 运行 。 这样 可 以 消除 用 户 的 疑虑 ,否则 用 户 就 会 担心 程序 是 否 
真 的 还 在 执行 。 

14-8 中 的 代码 会 生成 图 14-9 中 的 图 形 。 请 注意 X 轴 和 Y 轴 使 用 的 都 是 对 数 标 度 , 这 可 以 通过 
调用 绘图 函数 pylab .semilogx 和 semilogy 实 现 。 这 些 函 数 总 是 应 用 在 当前 图 中 。 
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def simDrunk(numTrials, dClass, walkLengths): 

meanDistances = [] 

for numsteps in walkLengths: 
print('Starting simulation of', numSteps, 'steps') 
trials = simWalks(numSteps, numTrials, dClass) 
mean = sum(trials)/len(trials) 
meanDistances.append(mean) 

return meanDistances 


def simAll1i(drunkKinds, walkLengths, numTrials): 
styleChoice = styleIterator(('m-', 'r:', 'k-.')) 
for dClass in drunkKinds: 
curStyle = styleChoice.nextStyle() 
print('Starting simulation of', dClass. name_ ) 
means = simDrunk(numTrials, dClass, walkLengths) 
pylab.plot(walkLengths, means, curStyle, 
label = dClass. name ) 
pylab.title('Mean Distance from Origin (' 

+ str(numTrials) + ' trials)') 
pylab.xlabel('Number of Steps') 
pylab.ylabel('Distance from Origin') 
pylab.legend(loc = 'best') 
pylab.semilogx() 
pylab.semilogy() 


simAll1( (UsualDrunk, ColdDrunk, EWDrunk), 
(16,166,1666,16868,166686) ，166) 














图 14-8 ”绘制 不 同类 型 醉 汉 的 游 允 
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距 原 点 的 平均 距离 (100 条 路 径 ) 
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图 14-9 不 同类 型 醉 汉 的 平均 距离 


普通 醇 汉 和 追寻 阳光 的 醇 汉 〈EwDrunk ) 看 上 去 以 大 致 相同 的 节奏 离开 原点 ， 但 是 追寻 温暖 
的 醇 汉 〈Ccoldprunk ) 离开 原点 的 速度 看 上 去 高 出 不 止 一 个 数量 级 。 这 很 有 趣 ， 因 为 平均 来 说 ， 
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他 的 移动 速度 只 比 其 他 醇 汉 快 23% (平均 来 说 ， 他 走 5 步 时 其 他 人 只 走 4 步 )。 
我 们 再 生成 一 张 图 ， 它 可 能 帮助 我 们 更 加 深刻 地 理解 3 种 醉 汉 的 行为 。 图 14-10 中 的 代码 没有 
绘制 步 数 增加 时 距离 随 着 时 间 发 生 的 变化 , 而 是 绘制 了 对 于 某 个 特定 的 步 数 , 各 个 醇 汉 的 最 终 位 
置 分 布 。 


























def getFinalLocs(numSteps, numTrials, dClass): 

locs = [] 

d = dClass() 

for t in range(numTrials): 
f = Field() 
f.addDrunk(d，Location(86，6)) 
for s in range(numSteps): 

f.moveDrunk(d) 

locs.append(f.getLoc(d)) 

return locs 


def plotLocs(drunkKinds, numSteps, numTrials): 
styleChoice = styleIterator(('k+', 'r^', 'mo')) 
for dClass in drunkKinds: 
locs = getFinalLocs(numSteps, numTrials, dClass) 
xVals, yVals = [], [] 
for loc in locs: 
xVals.append(loc.getX()) 
yVals.append(loc.getY()) 
meanX = sum(xVals)/len(xVals) 
meanY = sum(yVals)/len(yVals) 
curStyle = styleChoice.nextStyle() 
pylab.plot(xVals, yVals, curStyle, 
label = dClass. name + ' mean loc. = <" 
+ str(meanX) + ', ' + str(meanY) + '>') 
pylab.title('Location at End of Walks (' 

+ str(numSteps) + ' steps)') 
pylab.xlabel('Steps East/West of Origin') 
pylab.ylabel('Steps North/South of Origin') 
pylab.legend(loc = 'lower left') 


plotLocs((UsualDrunk, ColdDrunk, EWDrunk), 1606, 2060) 














图 14-10 ”绘制 最 终 位 置 


函数 plotLocs 做 的 第 一 件 事 是 创建 一 个 styleIterator 实 例 ， 其 中 有 3 种 标记 样式 。 然 后 使 
用 pylab.plot 在 每 次 游 走 实验 的 最 终 位置 放 置 一 个 标记 。pylab.plot 会 使 用 从 壕 代 器 
styleIterator 中 返回 的 值 设 置 标记 的 颜色 和 形状 。 

调用 plotLocs((UsualDrunk，ColdDrunk，EWDrunk)，168，260) 生 成 图 14-11 中 的 图 形 。 

首先 ， 从 图 中 可 以 看 出 ， 醉 汉 的 行为 正如 我 们 所 料 。Ewprunk 最 终 停 留 在 X 轴 上 ,ColdDrunk 
移动 到 了 南方 ，UsualDrunk 则 漫 无 目的 地 到 处 游荡 。 

但 是 ， 为 什么 圆 点 标记 看 起 来 比 三 角形 和 加 号 标记 少 那么 多 ? 人 生生 
停留 在 相同 位 置 。 在 给 定数 量 较 少 的 可 能 终点 〈200 个 ) 的 情况 下 ， 这 个 结果 并 不 奇怪 。 还 可 以 
看 出 ， 圆 点 标记 在 X 轴 上 分 布 得 相当 均 科 
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游 走 停止 的 位 置 (100 步 ) 
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距离 原点 东 / 西 的 步 数 
图 14-11 醉 汉 的 最 终 位 置 





30 


还 有 一 个 问题 至 少 对 我 来 说 不 那么 一 目 了 然 ， 那 就 是 ， 从 平均 意义 上 说 ， 为 什么 coldDrunk 
相对 于 其 他 两 种 类 型 的 醉 汉 ， 总 是 试图 从 原点 走 得 更 远 。 要 摘 清 这 个 问题 ,恐怕 不 能 从 多 次 游 走 


的 终点 


2 

















入 手 ， 而 应 该 看 一 下 单 次 游 走 经 过 的 路 径 。 图 14-12 中 的 代码 会 生成 图 14-13。 








def traceWalk(drunkKinds, numSteps): 


styleChoice = styleIterator(('k+', 'r^', 
f = Field() 
for dClass in drunkKinds: 

d = dClass() 

f.addDrunk(d, Location(6, 0)) 

locs = [] 


for s in range(numSteps): 
f.moveDrunk(d) 
locs.append(f.getLoc(d)) 
xVals, yVals = [], [] 
for loc in locs: 
xVals.append(loc.getX()) 
yVals.append(loc.getY()) 
curStyle = styleChoice.nextStyle() 
pylab.plot(xVals, yVals, curStyle, 
label = dClass._ name ) 
pylab.title('Spots Visited on Walk (” 
+ str(numSteps) + ' steps)') 
pylab.xlabel('Steps East/West of Origin') 


pylab.ylabel('Steps North/South of Origin') 


pylab.legend(loc = 'best') 


traceWalk( (UsualDrunk, ColdDrunk, EWDrunk), 28606) 


“mo )) 














图 14-12 ”跟踪 游 
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游 走 经 过 的 点 (200 步 ) 
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图 14-13 ” 游 走 轨迹 


因为 游 走 步 数 为 200，EWDrunk 游 走时 到 达 的 不 同位 置 还 不 到 30 个 , 所 以 很 明显 , 他 花费 了 大 
量 时 间 重 复 走 了 很 多 路 。UsualDrunk 也 有 同样 的 情况 。 相 比 之 下 ,尽管 coldDrunk 没 有 精确 地 径 
直 走 向 佛罗里达 ， 他 依然 很 少 重复 已 经 走 过 的 位 置 。 
这 些 模 拟 就 其 本 身 来 说 不 是 特别 有 趣 ( 第 16 章 会 介绍 一 个 本 质 上 更 加 有 趣 的 模拟 。), 但 有 如 
下 几 点 值得 我 们 借鉴 。 
口 首先 , 我 们 将 模拟 代码 分 成 了 4 个 独立 的 部 分 。 其 中 3 个 为 类 ( Location、Field 和 Drunk )， 
对 应 于 问题 非 正式 描述 中 出 现 的 3 个 抽象 数据 类 型 。 第 4 部 分 是 一 组 函数 ， 可 以 使 用 这 些 
类 进行 一 些 简 单 的 模拟 。 
口 然后 ,我 们 为 Drunk 类 精心 设计 了 一 个 层次 结构 ,这 样 可 以 观察 各 种 不 同类 型 的 有 偏 随机 
游 走 。 关 于 Location 和 Field 的 代码 依然 保持 不 变 ， 但 修改 了 模拟 代码 来 遍历 Drunk 的 不 
同 子 类 。 在 此 期 间 ， 我 们 利用 了 “类 本 身 也 是 一 个 对 象 ” 这 一 特点 ， 将 其 作为 实 参 进行 
传递 。 
口 最 后 ， 我 们 对 模拟 过 程 进行 了 一 系列 增 量 修 改 ,但 其 中 没有 任何 修改 涉及 表示 抽象 类 型 
的 类 。 这 些 修改 多 数 是 为 了 生成 图 形 ， 这 些 图 形 可 以 使 我 们 对 不 同类 型 的 游 走 有 更 深刻 
的 理解 。 这 是 一 种 典型 的 开发 模拟 模型 的 方法 ， 先 使 基础 的 模拟 运行 起 来 ， 然 后 不 断 添 
加 新 功能 。 


14.4 变幻 莫 测 的 田地 
你 玩 过 美国 的 飞行 棋 或 者 英国 的 蛇 梯 棋 吗 ?这 个 儿童 游戏 起 源 于 印度 ( 大约 公元 前 2 世纪 )， 


在 那里 被 称 为 蛇 棋 。 如 果 玩 家 走 到 代表 美德 ( 比如 慷慨 ) 的 方 格 ,就 可 以 通过 梯子 多 走 几 格 。 如 
果 走 到 代表 罪恶 ( 比如 欲望 ) 的 方 格 ， 玩 家 就 会 后 退 几 格 。 
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通过 创建 一 个 带 有 虫 洞 "的 Field, 我 们 可 以 在 随机 游 走 问题 中 轻松 加 入 这 种 特性 , 如 图 14-14 
所 示 。 此 外 ， 还 要 将 函数 tracenalk 中 的 第 2 行 代码 替换 为 ; 
f = oddFie1d(1666，166，266) 


在 oddField 中 ， 如 果 醉 汉 走 到 了 有 虫 洞 的 地 方 ， 就 会 被 瞬间 传送 到 虫 洞 的 另 一 端 。 











class oddField(Field): 
def _ init (self, numHoles, xRange, yRange): 

Field. init (self) 

self.wormholes = {} 

for w in range(numHoles): 
x = random.randint(-xRange, xRange) 
y = random.randint(-yRange, yRange) 
newX = random.randint(-xRange, xRange) 
newY = random.randint(-yRange, yRange) 
newLoc = Location(newX, newY) 
self.wormholes[(x, y)] = newLoc 


def moveDrunk(self, drunk): 
Field.moveDrunk(self, drunk) 
x = self.drunks[drunk].getX() 
y = self.drunks[drunk].getY() 
if (x, y) in self.wormholes: 
self.drunks[drunk] = self.wormholes[(x, y)] 














图 14-14 ”属性 奇特 的 田地 








运行 traceWalk( (UsualDrunk, ColdDrunk， EWDrunk),568), 会 得 到 一 张 非 常 奇怪 的 图 形 ， 
如 图 14-15 所 示 。 





游 走 经 过 的 点 (500 步 ) 
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距离 原点 东 / 西 的 步 数 
图 14-15 ”奇怪 的 游 走 路 线 




















@ 这 种 虫 洞 是 理论 物理 学 家 ( 也 可 能 是 科幻 小 说 家 ) 提出 的 一 个 假想 概念 。 它 可 以 在 连续 的 时 空中 提供 一 条 捷径 。 
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显然 ， 修 改 田 地 属性 后 ， 游 走 具 有 了 一 种 戏剧 性 的 效果 。 但 本 例 的 重点 在 于 以 下 两 点 。 

口 我 们 的 代码 是 高 度 结构 化 的 ， 所 以 很 容易 适应 建 模 情 形 的 重大 改变 。 就 像 可 以 在 不 修改 
Field 的 情况 下 添加 不 同类 型 的 醉 汉 一 样 ， 我 们 也 可 以 在 不 对 Drunk 及 其 任何 子 类 进行 修 
改 的 情况 下 , 添加 一 种 新 的 Field 类 型 。( 如 果 有 足够 的 先 见 之 明 , 在 trackwalk 中 使 用 一 
个 形 参 表示 田地 ， 其 至 都 不 用 修改 tracewalk 中 的 第 2 行 代码 。) 

口 在 简单 随机 游 走 问题 甚至 有 偏 随机 游 走 问 题 中 ， 通 过 分 析 方 法 推导 各 种 不 同类 型 醉 汉 的 

预期 行为 还 是 比较 可 行 的 ， 但 如 果 引 入 虫 洞 再 做 这 些 分 析 就 很 困难 了 。 相 比 之 下 ， 修 改 

模型 以 模拟 新 的 情形 则 非常 容易 。 与 分 析 性 模型 相 比 ， 适 应 性 强 是 模拟 模型 引 以 为 做 的 

一 大 优点 。 







































































随机 程序 、 概 次 与 分 布 








牛顿 力学 就 是 很 完美 。 你 按 下 杠杆 的 一 端 , 另 一 端 就 会 几 起 来 。 你 向 空中 扔 出 一 个 球 ， 它 会 
沿 着 抛物 线 飞行 ， 最 后 落下 来 。 忆 = ma。 简 而 言 之 ， 任 何事 情 的 发 生 都 是 有 原因 的 。 物 质 世界 是 
完全 可 预测 的 一 实体 系统 的 所 有 未 来 状态 都 可 以 根据 当前 状态 推导 出 来 。 

几 个 世纪 以 来 ， 牛 顿 力学 都 是 一 种 被 普遍 认同 的 科学 常识 ， 直 到 量子 力学 和 哥本哈根 学 派 的 
产生 。 以 玻 尔 和 海 森 保 为首 的 哥本哈根 学 派 认为 在 最 基础 的 层面 上 , 物质 世界 的 行为 是 不 可 预测 
的 ， 我 们 只 能 做 出 像 “x 非 常 可 能 发 生 ” 这 样 的 概率 上 的 说 明 ， 不 能 做 出 像 “x 一 定 会 发 生 ”这 样 的 
确定 性 的 说 明 。 其 他 一 些 杰出 的 物理 学 家 强烈 反对 这 种 观点 ， 其 中 最 著名 的 是 爱 因 斯 坦 和 巷 定 刘 。 

这 场 辩论 停 动 了 物理 界 、 哲 学界 ， 甚 至 宗教 界 。 辩 论 的 核心 是 因果 关系 不 确定 性 是 否 正确 。 
也 就 是 说 ,是 否 相信 所 有 事件 都 是 由 以 前 的 事件 引起 的 。 爱 因 斯 坦 和 莅 定 油 认为 这 种 观点 在 哲学 
上 是 不 可 接受 的 ， 佐 证 就 是 爱 因 斯 坦 那 名 经常 被 引用 的 名 言 :“ 上 帝 不 掷 侦 子 。” 他 们 能 够 接受 的 
只 是 预测 不 确定 性 ， 也 就 是 说 ,是 我 们 不 能 对 物质 世界 进行 准确 无 误 的 测量 ， 才 导致 了 不 能 对 未 
来 状态 进行 精确 的 预测 。 爱 因 斯 坦 非常 好 地 总 结 了 这 二 者 之 间 的 区 别 ， 他 说 :“ 当 代理 论 在 本 质 
上 具有 统计 特性 ， 只 能 归 因 于 一 个 事实 一 这 种 理论 对 物质 世界 的 描述 是 不 完整 的 。” 

因果 关系 不 确定 性 的 问题 至 今 尚 无 定论 。 但是, 无 论 我 们 不 能 预测 未 来 事件 是 因为 它们 根本 
就 不 可 预测 ， 还 是 因为 我 们 没有 掌握 足够 的 信息 去 预测 ， 都 没有 实际 意义 。 

尽管 玻 尔 和 爱 因 斯 坦 争论 的 是 如 何 理解 物质 世界 最 微观 的 层面, 但 在 宏观 层面 上 也 会 出 现 同 
样 的 问题 。 赛马 、 轮 盘 赠 中 转 轮 的 旋转 和 股票 市 场 的 投资 可 能 具有 确定 的 因果 关系 ,但 有 足够 的 
证 据 表 明 ， 将 它们 当 作 预 测 确定 性 的 事件 是 非常 危险 的 。? 


15.1 随机 程序 


如 果 一 个 程序 运行 时 使 用 相同 输入 就 会 产生 相同 输出 ,那么 这 个 程序 就 是 确定 性 的 ,请 注意 ， 
这 并 不 是 说 输出 完全 是 由 问题 的 规范 来 定义 的 。 例 如 ， 子 数 squreRoot(x，epsilon) 的 规范 : 


def squareRoot(x, epsilon): 
""" 假 设 x 和 epsilon 为 浮上 点数 类 型 ; x >= 6，epsilon > 8 
返回 浮上 点数 y， 使 得 Xx-epsilon<=y*y<=x+epsilon""" 


















































































































































































































































Qz 当然 ， 这 依然 不 能 阻止 某 些 人 相信 他 们 可 以 预测 出 这 些 事件 的 结果 ， 并 因为 这 种 自信 而 输 掉 很 多 钱 。 
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从 这 个 规范 可 以 看 出 ， 函 数 调 用 squareRoot(2，6.861) 可 以 返回 的 值 有 很 多 种 可 能 。 但 是 ， 
如 果 使 用 我 们 在 第 3 章 介绍 过 的 连续 逼近 算法 实现 这 个 函数 ， 那 么 总 会 返回 同一 个 值 。 规 范 中 并 
没有 要 求 具体 实现 是 确定 性 的 ， 但 它 也 确实 允许 确定 性 的 实现 。 

不 是 所 有 有 意义 的 规范 都 可 以 用 确定 性 的 程序 来 实现 。 例 如 , 考虑 实现 一 个 程序 来 玩 掷 般 子 
的 游戏 ， 比 如 双 陆 档 或 双 骨 儿 赌 博 。 在 程序 中 , 需要 一 个 函数 模拟 一 个 六 面 骨 子 的 一 次 公平 的 投 
掷 。 "假设 这 个 函数 的 规范 如 下 : 

def rollDie(): 

""" 返 回 一 个 1~6 的 整数 """ 

这 是 有 问题 的 , 因为 这 样 就 允许 函数 在 每 次 被 调用 时 返回 同一 个 数 , 游戏 就 变 得 枯燥 无 味 了 。 
对 rollDie 更 好 的 说 明 应 该 是 returns a randomly chosen int between 1 and 6， 这 就 要 求 
一 个 随机 性 的 函数 实现 。 

包括 Python 在 内 ， 很 多 编程 语言 都 可 以 通过 一 种 简单 的 方式 编写 随机 程序 ， 即 利用 随机 性 的 
程序 。 图 1$-1 中 的 小 程序 是 一 个 模拟 模型 。 我 们 没有 找 一 些 人 来 扔 货 子 ， 而 是 写 了 一 个 程序 来 模 
拟 这 种 活动 。 代 码 先 导入 一 个 Python 标准 库 模 块 random， 然 后 使 用 了 其 中 几 个 有 用 的 函数 。 正 如 
我 们 前 面 所 看 到 的 ， 函 数 random. choice 接 受 一 个 非 空 序列 作为 参数 ， 然 后 返回 一 个 从 序列 中 随 
机 选择 的 元 素 。random 中 几乎 所 有 函数 都 以 random. random 为 基础 , 这 个 函数 我 们 在 前 面 也 见 过 ， 
它 会 生成 一 个 0.0~1.0 的 随机 浮 点 数 。” 


















































import random 


def rollDie(): 
mn "返回 一 个 1~6 的 随机 整 数 " IT 
return random.choice([1,2,3,4,5,6]) 


def rollN(n): 
result = "" 
for i in range(n): 
result = result + str(rollDie()) 
print(result) 











图 15-1 掷 货 子 





现在 运行 rol1N(16), 如 果 输 出 1111111111 或 5442462412, 那么 其 中 哪个 结果 更 让 你 惊奇 ? 
或 者 换 句 话说 , 哪个 序列 是 更 随机 的 ?这 个 问题 其 实 是 一 个 陷阱 。 这 两 个 序列 出 现 的 概率 是 一 样 
的 ， 因 为 每 次 投掷 得 到 的 值 都 独立 于 前 面 那 些 投掷 结果 。 在 随机 过 程 中 , 如果 一 个 事件 的 结果 不 














Qz 如 果 六 个 面 中 每 个 面向 上 的 概率 都 相同 ， 那 么 这 次 投掷 就 是 公平 的 。 这 可 不 总 是 理所当然 的 。 挖 掘 庞 贝 古城 
时 ， 人 们 就 发 现 过 灌 了 铅 的 骨 子 ， 一 点 铅 的 重量 就 可 以 使 投掷 的 结果 发 生 偏离 。 最 近 ， 一 个 在 线 供应 商 网 站 上 
有 这 样 一 句 话 :“ 在 掷 货 子 时 你 是 不 是 经 常 不 走运 ? 听 ， 那 么 买 一 对 儿 更 听话 的 货 子 吧 ， 这 正 是 你 需要 的 。” 

@ 实际 上 ，random.random 返 回 的 值 并 不 是 真正 随机 的 。 这 在 数学 上 称 为 伪 随 机 数 。 从 实际 应 用 的 角度 来 说 ， 它 和 

真正 的 随机 数 没 有 本 质 上 的 区 别 ， 可 以 忽略 。 
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会 影响 另 一 个 事件 的 结果 ， 我 们 就 称 这 两 个 事件 是 相互 独立 的 。 

如 果 我 们 将 情形 简化 为 一 个 只 有 0 和 1 两 个 面 的 般 子 〈 你 也 可 以 称 它 为 硬币 )， 问 题 就 会 更 容 
易 。 这 样 就 可 以 将 rollN 的 输出 用 二 进 制 数 表 示 。 如 果 我 们 使 用 这 个 二 进 制 骨 子 , 那么 n 次 测试 就 
可 能 返回 2" 种 序列 ， 每 种 序列 出 现 的 可 能 性 都 相等 ， 因 此 每 种 序列 出 现 的 概率 为 (1/2)”。 

我 们 还 是 回 到 六 面 贷 子 。 长 度 为 10 的 不 同 序列 有 多 少 个 ? 6" 个。 所以， 连续 扔 出 10 个 1 的 概 
率 是 (1/6)"”， 比 六 千 万 分 之 一 还 要 小 。 概 率 相当 低 ， 但 并 不 比 其 他 序列 的 概率 更 低 ， 比 如 
5442462412 这 个 序列 。 


15.2 ”计算 简单 概率 


一 般 来 说 ， 当 我 们 讨论 具有 某 种 特性 的 结果 的 概率 时 ,实际 上 是 想 知 道 在 所 有 结果 中 ,具有 
这 种 特性 的 结果 占 多 少 比 例 。 这 就 是 概率 取 值 范 轩 在 0~1 的 原因 。 假 设 我 们 想 知 道 ， 在 掷 货 子 时 
得 到 除了 1111111111 以 外 的 序列 的 概率 。 这 非常 简单 ， 就 是 1 - (1/6:0)， 因 为 某 个 事情 发 生 的 概 
率 与 它 不 发 生 的 概率 加 起 来 肯定 等 于 1。 

假设 我 们 想 知道 掷 10 次 仍 子 但 是 没有 一 次 掷 出 1 的 概率 。 解 决 这 个 问题 的 一 种 方法 是 将 它 转 
换 为 : 在 6 个 序列 中 ， 不 包含 1 的 序列 有 多 少 。 这 个 问题 可 以 计算 如 下 : 

(1) 在 一 次 投掷 中 ， 没 有 掷 出 1 的 概率 为 5/6; 

(2) 第 一 次 和 第 二 次 投掷 都 没有 掷 出 1 的 概率 为 (5/6) x (5/6)， 即 (5/6); 

(3) 所 以 ， 一 连 10 次 都 没有 掷 出 1 的 概率 为 (5/6)0， 稍 大 于 0.16。 

第 二 步 应 用 了 独立 概率 的 乘法 法 则 。 举 例 来 说 , 考虑 两 个 独立 事件 A 和 B。 如 果 A 发 生 的 概率 
是 1/3，B 发 生 的 概率 是 1/4， 那 么 A 和 B 同 时 发 生 的 概率 就 是 (1/3) x (1/4)。 

那么 至 少 掷 出 一 次 1 的 概率 是 多 少 呢 ? 只 要 用 1 减 去 没有 掷 出 1 的 概率 即 可 ， 即 1 - (5/6)"。 请 
注意 ,下面 这 种 计算 方法 是 错误 的 : 因为 在 1 次 投掷 中 ， 掷 出 1 的 概率 是 116， 所 以 10 次 投掷 至 少 
掷 出 1 次 1 的 概率 就 是 10 x (1/6)。 这 明显 是 错误 的 ， 因 为 概率 不 能 大 于 1。 

那么 在 10 次 投掷 中 ， 正 好 掷 出 两 次 1 的 概率 是 多 少 呢 ? 这 等 价 于 : 在 用 六 进 制 表示 的 前 6 个 
整数 中 ， 正 好 有 两 位 是 1 的 比例 是 多 少 。 我 们 很 容易 写 出 一 个 程序 ， 生 成 所 有 这 些 序列 ， 然 后 计 
算 正 好 包含 两 个 1 的 序列 数量 。 以 分 析 的 方法 推导 这 个 概率 有 点 复杂 , 我 们 将 在 15.4.4 节 进行 介绍 。 


15.3 ”统计 推断 


正如 我 们 刚才 看 到 的 , 可 以 使 用 一 种 系统 的 方法 , 在 知道 一 个 或 多 个 简单 事件 的 概率 的 基础 
上 ， 推 导出 一 些 复杂 事件 的 精确 概率 。 例 如 ， 我 们 可 以 基于 “每 次 抛掷 便 币 都 是 一 个 独立 事件 ” 
这 一 假设 , 以 及 在 每 次 抛掷 中 硬币 正面 向 上 的 概率 , 很 容易 地 计算 出 硬币 连续 10 次 正面 向 上 的 概 
率 , 但 是 , 如 果 我 们 确实 不 知道 简单 事件 的 概率 呢 ? 比如 , 我 们 不 知道 硬币 是 否 公平 ( 也 就 是 说 ， 
硬币 正面 向 上 和 反面 向 上 的 可 能 性 是 一 样 的 )。 

还 没 到 山 穷 水 尽 的 时 候 。 如 果 我 们 有 一 些 关 于 硬币 行为 的 数据 , 那么 就 可 以 将 这 些 数据 与 概 
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率 知识 结合 起 来 , 得 到 一 个 真实 概率 的 估计 。 可 以 使 用 统计 推断 估计 这 个 不 公平 的 硬币 在 一 次 抛 
掷 中 正面 向 上 的 概率 ， 然 后 使 用 传统 方法 计算 这 个 硬币 连续 10 次 正面 向 上 的 概率 。 

简 而 言 之 ( 因为 这 不 是 一 本 概率 教材 )， 统 计 推 断 的 指导 原则 就 是 : 一 个 从 总 体 数据 中 随机 
抽取 的 样本 往往 可 以 表现 出 与 总 体 相同 的 特性 。 

假设 哈 维 : 丹 特 〈 又 称 双 面 人 ) 抛 出 一 个 硬币 ,正面 向 上 ,那么 根据 这 个 事实 ,你 不 会 推测 
下 一 次 硬币 还 会 正面 向 上 。 假 设 他 抛 了 两 次 ,而 且 两 次 都 是 正面 向 上 , 那么 你 可 以 解释 说 对 于 一 
个 均匀 的 人 硬币， 发生 这 种 情况 的 概率 有 0.25， 然 而 还 是 没有 任何 理由 认为 下 一 次 抛 搓 还 会 正面 向 
上 。 但 是 ， 如 果 100 次 抛掷 都 是 正面 向 上 的 话 ， 因 为 (12)”" ( 硬币 是 均匀 的 假设 下 发 生 这 种 情况 
的 概率 ) 这 个 值 太 小 了 ， 所 以 你 完全 可 以 怀疑 硬币 的 两 面 都 是 正面 。 

基于 你 的 直觉 和 常识 , 你 对 硬币 是 否 均 匀 产 生 了 怀疑 , 抛 一 次 硬币 的 结果 应 该 能 够 反映 出 抛 
100 次 硬币 的 结果 。 当 100 次 抛掷 都 是 正面 向 上 时 ， 你 的 这 种 怀疑 是 非常 有 道理 的 。 再 假设 有 52 
次 抛掷 是 正面 向 上 的 ，48 次 抛掷 是 反面 向 上 的 ,那么 你 是 否 觉得 再 抛 100 次 的 话 ， 正 面向 上 与 反 
面向 上 的 比例 还 会 如 此 吗 ? 同样 ， 你 是 否 觉得 再 抛 100 次 的 话 ， 正 面向 上 的 次 数 会 比 反 面向 上 的 
次 数 多 ? 花 点 时 间 思 考 一 下 这 几 个 问题 ， 然 后 做 个 实验 。 如 果 你 手头 没有 硬币 ， 可 以 使 用 图 15-2 
中 的 代码 进行 模拟 。 

























































































def flip(numFlips): 
"" "假设 numF1ips 是 一 个 正 整数 """ 
heads = 6 
for i in range(numFlips): 
if random.choice(('H', 'T')) == 'H': 
heads += 1 
return heads/numFlips 


def flipSim(numFlipsPerTrial, numTrials): 
"" "假设 numFlipsPerTrial 和 numTrials 是 正 整 数 """ 
fracHeads = [] 
for i in range(numTrials): 
fracHeads.append(flip(numFlipsPerTrial)) 
mean = sum(fracHeads)/len(fracHeads) 
return mean 











图 15-2” 抛 硬币 


图 15-2 中 的 函数 flip 可 以 模拟 抛掷 一 个 均匀 的 硬币 numFlips 次 ， 然 后 返回 正面 向 上 的 比例 。 
对 于 每 次 抛掷 ， 它 都 会 调用 random.choice(('H'，'T')) 随 机 地 返回 一 个 'H' 或 'T'。 

试 着 多 运行 几 次 函数 flipsim(16，1) ， 下 面 是 使 用 print('Mean ='，flipsim(16，1) ) 输 
出 的 前 两 次 运行 的 结 

Mean = 6.2 

Mean = 6.6 


看 上 去 在 一 次 实验 中 抛 10 次 硬币 得 不 到 什么 有 用 的 结论 〈 除 了 硬币 确实 有 正 反 两 面 )， 这 就 
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是 我 们 通常 要 做 多 次 实验 并 比较 实验 结果 的 原因 。 试 运行 两 次 flipSim(16，166) : 


Mean 
Mean 


这 次 的 结果 是 不 是 更 有 意义 ? 如 果 运 行 fFLlipSim(1686，166666) ， 会 得 到 以 下 结果 : 


Mean = 6.5665666666666638 
Mean = 6.5663139999999954 


这 次 的 结果 真 的 特别 棒 〈 特别 是 因为 我 们 知道 答案 应 该 是 0.5， 这 就 有 点 像 作 浆 了 )。 看 来 我 们 完 
全 可 以 得 出 下 一 次 抛掷 的 结论 ， 即 正面 向 上 和 反面 向 上 具有 相同 的 可 能 性 。 但 是 ,为 什么 能 得 出 
这 样 的 结论 呢 ? 

我 们 的 依据 就 是 大 数 定律 ( 也 称 为 伯 努 利 定理 ”)。 这 个 定律 说 明 ， 在 独立 可 重复 的 实验 中 ， 
如 果 每 次 实验 中 出 现 某 种 特定 结果 的 实际 概率 为 p (例如 ， 每 次 抛 硬币 正面 向 上 的 实际 概率 为 
0.5 )， 那 么 实验 次 数 接近 无 穷 大 时 ， 出 现 这 种 结果 的 比例 与 实际 概率 p 之 间 的 差 收 敛 于 0。 

值得 注意 的 是 , 大 数 定 律 并 不 意味 着 如 果 预 期 行为 出 现 偏差 , 那么 这 些 偏差 会 在 未 来 被 相反 
的 偏差 “ 扯 平 "， 尽 管 太 多 的 人 都 是 这 样 认为 的 。 这 种 对 大 数 定 律 的 滥用 称 为 赌 徒 训 误 。” 

人 们 经 常 将 赌 徒 廖 误 与 均值 回归 混淆 。 均 值 回归 3? 说明， 如 果 出 现 一 个 极端 的 随机 事件 ， 那 
么 下 一 个 随机 事件 很 可 能 就 不 是 极端 的 。 如 果 你 将 一 个 均匀 的 硬币 抛 了 6 次 , 每 次 都 是 正面 向 上 ， 
那么 均值 回归 就 意味 着 如 果 再 抛 6 次 硬币 , 结果 就 非常 可 能 接近 3 次 正面 向 上 这 个 期 望 值 。 而 不 是 
像 财 徒 廖 误 那样 ， 认 为 在 下 一 个 抛掷 序列 中 ， 正 面向 上 的 概率 要 小 于 反面 向 上 的 概率 。 

在 很 多 工作 中 ,成 功 既 需要 能 力 ， 也 需要 运气 。 能 力 决定 了 均值 ， 运 气 则 导致 了 方差 。 运气 
的 随机 性 解释 了 均值 回归 。 
图 15-3 中 的 代码 会 生成 一 张 图 , 如 图 15-4 所 示 , 这 张 图 演示 了 均值 回归 。 函数 regressToMean 
首先 生成 numTrials 次 实验 ,每 次 实验 抛掷 硬币 numFlips 次 。 然 后 ， 它 找 出 所 有 正面 向 上 比例 小 





0.58629999999999999 
0.496 








































































































于 1/3 或 大 于 2/3 的 实验 ， 将 这 些 极端 值 以 圆 点 的 形式 绘制 在 图 中 。 此 后 ， 对 于 其 中 每 个 圆 点 ， 找 
出 紧 随 其 后 的 那 次 实验 ， 并 以 三 角形 的 形式 将 其 结果 绘制 在 圆 点 正 下 方 。 








@ 尽管 大 数 定律 是 卡尔 达 诺 在 16 世 纪 第 一 次 提出 的 ， 但 直到 18 址 纪 早 期 ， 才 由 雅 各 布 ， 伯 努 利 公 布 了 首次 证 明 。 
它 和 流体 力学 中 的 伯 努 利 定理 没有 关系 ， 这 个 定理 是 由 雅 各 布 的 侄子 丹尼尔 伯 努 利 证 明 的 。 

@)“1913 年 8 月 18 日 ， 蒙 特 卡 罗 赌 场 ，( 在 轮 盘 赌 中 ) 黑色 创 纪 录 地 连续 出 现 了 26 次 …… 从 第 15 次 不 寻常 地 出 现 黑色 
开始 ， 人 们 就 像 发 生 臣 慌 一 样 争 相 下 注 红 色 。 根 据 〈 机 会 ) 成 熟 原则 ， 玩 家 们 下 了 双 倍 力 至 三 倍 赌注 ， 这 个 原则 
使 他 们 相信 ， 黑 色 出 现 20 次 之 后 ， 再 次 出 现 的 机 会 都 不 到 百 万 分 之 一 。 最 终 ， 这 次 罕见 的 事件 使 赌场 增加 了 几 
百 万 法 即 的 收入 。”Huff and Geis, How to Take a Chance, pp.28-29. 
@ “均值 回归 ”* 这 个 名 词 是 1885 年 弗朗西斯 . 高 尔 顿 在 “Regression Toward Mediocrity in Hereditary Stature” 这 篇 论文 
中 第 一 次 使 用 的 。 在 这 项 研究 中 ， 他 发 现 如 果 父 母 身 高 特别 高 ， 那 么 孩子 的 身高 很 可 能 要 比 父母 矮 。 
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def regressToMean(numFlips, numTrials): 
# 获 取 每 次 实验 ( 抛 抑 numF1ips 次 硬币 ) 中 正面 向 上 的 比例 
fracHeads = [] 
for t in range(numTrials): 
fracHeads.append(flip(numFlips)) 
# 找 出 具有 极端 结果 的 实验 ， 以 及 这 些 实验 的 下 一 次 实验 
extremes, nextTrials = []，[] 
for i in range(len(fracHeads) - 1): 
if fracHeads[i] < 6.33 or fracHeads[i] > 8.66: 
extremes.append(fracHeads[i]) 
nextTrials.append(fracHeads[i+1]) 
# 绘 制 结果 
pylab.plot(range(len(extremes)), extremes, 'ko', 
label = 'Extreme') 
pylab.plot(range(len(nextTrials)), nextTrials, 'k^', 
label = 'Next Trial') 
pylab.axhline(8.5) 
pylab.ylim(6, 1) 
pylab.xlim(-1, len(extremes) + 1) 
pylab.xlabel('Extreme Example and Next Trial') 
pylab.ylabel('Fraction Heads ' ) 
pylab.title('Regression to the Mean') 
pylab.legend(loc = 'best') 





regressToMean(15, 406) 











= 





图 15-3 ”均值 回归 








均值 回归 
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正面 的 比率 
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下 一 次 实验 


图 15-4 ”图解 均值 回归 


图 中 的 横 线 使 用 函数 axhline 生 成 ,正好 位 于 0.5 处 , 表示 期 望 的 均值 。 也 数 pylab .xlim 设 置 
了 XX 轴 的 范围 。 也 数 调 用 pylab.xlim(xmin, xmax) 可 以 设置 当前 图 中 X 轴 的 最 小 值 和 最 大 值 。 汤 
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数 调用 pylab.xlim() 则 会 返回 一 个 由 当前 图 中 X 轴 的 最 小 值 和 最 大 值 组 成 的 元 组 。 隐 数 





pylab.ylim 的 工作 方式 也 是 一 样 的 。 


请 注意 , 如 果 一 个 实验 得 到 了 极端 结果 , 那么 紧 跟 在 它 后 面 的 实验 结果 一 般 会 比 上 次 的 极端 








四 
结果 





更 靠近 均值 ， 但 也 并 非 总 是 如 此 ， 比 如 方 框 中 的 那 两 次 实验 。 


实际 练习 : 萨 莉 在 打 高 尔 夫 球 时 ,平均 每 洞 要 打 5 杆 。 一天， 她 打 完 前 9 个 油 用 了 40 杆 。 她 的 
球 友 猜想 她 会 回归 正常 水 平 ， 打 完 后 9 个 洞 要 用 50 杆 。 你 同意 这 种 判断 吗 ? 








图 15-5 中 的 函数 flipPlot 可 以 生成 两 个 


图 形 ， 如 

















图 15-6 所 示 。 从 这 两 个 图 形 中 可 以 看 出 大 数 








定律 的 作用 。 第 一 张 图 表示 的 是 正面 与 反面 向 上 次 数 的 差 的 绝对 值 随 着 硬币 抛掷 次 数 发 生 的 变 








化 , 第 二 张 图 则 绘制 出 了 正面 与 反面 向 上 次 数 二 者 之 间 的 比率 与 抛掷 次 数 之 间 的 关系 。 差 不 多 最 





后 面 的 那 行 代码 random.seed(8) 保 证 了 random.random 使 用 的 伪 随 机 数 生 成 器 在 函数 每 次 运行 


时 都 生成 同样 的 伪 随 机 数 序列 。 "这 一 点 对 于 程序 的 调试 是 非常 有 利 的 。 调 用 random. seed 时 可 
以 使 用 任何 数值 ， 如 果 没 有 使 用 参数 ， 那 么 函数 就 随机 选择 一 个 种 子 。 














ratios, diffs, xAxis 
xAxis.append(2**exp) 

for numFlips in xAxis: 
numHeads = 6 


try: 


continue 
pylab. 
pylab. 
pylab. 
pylab. 
pylab. 
pylab. 
pylab. 
pylab. 


plot(xAxis, diffs, 
figure() 
title('Heads/Tails 





def flippPlot(minExp, maxExp): 
"" "假设 minExp 和 maxExp 是 正 整 数 ; minExp<maxExp 

绘制 出 从 2##minEXp 到 2#xmaXxEXp 次 硬币 投掷 的 结果 """ 

[]，[ 


for exp in range(minExp, maxExp + 1): 


EE 


for n in range(numFlips): 
if random.choice(('H', ‘'T" 
numHeads += 1 
numTails = numFlips - numHeads 


ratios.append(numHeads/numTails) 
diffs.append(abs(numHeads - numTails)) 
except ZeroDivisionError: 


title('Difference Between Heads and Tails') 
xlabel('Number of Flips') 
ylabel('Abs(#Heads - #Tails)') 


'k') 


Ratios') 


xlabel('Number of Flips') 
ylabel( '#Heads/#Tails') 






































pylab.plot(xAxis, ratios, 'k') 
random. seed(0) 
flipPlot(4，26) 
图 15-5 ”绘制 抛 硬币 的 结果 
Qa 你 应 该 知道 ，Python 2 和 Python 3 中 使 用 的 伪 随 机 数 生成 器 是 不 一 样 的 。 这 意味 着 即使 设置 了 随机 数 种 子 ， 也 不 








能 期 望 程序 在 不 同 的 语言 版 本 中 运行 时 会 得 到 相同 的 结 
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正面 和 反面 的 差距 























正面 /反面 的 比例 













































































h lL h 1 1 1 h 1 1 1 
0 200000 400000 600000 800000 1000000 1200000 和 200000 400000 600000 800000 1000000 1200000 


币 的 次 数 抛 硬币 的 次 数 

图 15-6 ”大 数 定律 的 作用 

左边 的 图 形似 乎 是 要 说 明 , 正面 与 反面 向 上 的 差 的 绝对 值 从 一 开始 就 在 大 幅 波动 , 有 时 一 落 

千丈 ， 立 刻 又 直上 九天 。 但 需要 注意 的 是 ，x = 3686 688 的 右面 只 有 两 个 数据 点 。pylab.plot 

用 线 将 所 有 的 点 都 连接 起 来 , 缺少 其 他 信息 时 , 这 会 误导 我 们 对 趋势 的 判断 。 这 种 现象 比较 常见 ， 
所 以 应 该 在 做 出 结论 之 前 ， 先 看 看 图 中 到 底 有 多 少 个 点 。 

在 右边 的 图 中 很 难看 出 一 些 有 用 的 东西 ， 几 乎 就 是 一 条 平行 直线 。 这 也 是 一 种 假象 。 尽 管 图 

中 只 有 16 个 数据 点 ,但 大 部 分 都 拥挤 在 图 中 最 左 侧 的 一 小 块 区 域 中 , 所 以 无 法 展现 细节 。 发 生 这 

























































































种 情况 是 因为 这 些 点 的 X 轴 坐标 是 24, 25, 25,…,2”， 所 以 X 轴 的 取 值 范围 是 16~100 万 多 , 除非 明确 
采用 其 他 方式 ，Pylab 会 按照 与 原点 之 间 的 距离 来 放置 这 些 点 ， 这 种 方式 称 为 线性 缩放 。 因 为 多 


数 点 的 x 值 与 2” 相 比 都 非常 小 ,所 以 它们 会 非常 靠近 原点 。 

幸运 的 是 , 这 种 可 视 化 问题 在 Pylab 中 非常 容易 解决 。 正 如 我 们 在 第 11 章 和 本 章 前 面 所 见 到 的 ， 
可 以 很 容易 地 让 程序 绘制 出 未 连接 的 点 , 例如 , 可 以 使 用 代码 pylab.plot(xAxis, diffs，'ko')。 

图 15-7 中 的 两 幅 图 都 在 X 轴 上 使 用 了 对 数 标 度 。 因 为 函数 flipPlot 生 成 的 x 值 都 是 2m"Em， 
2mmpp 1 ,2me5 的 形式 ,所 以 使 用 对 数 标 度 的 X 轴 可 以 使 点 之 间 的 间隔 达到 最 大 , 均匀 地 分 布 在 
X 轴 上 。 图 15-7 中 左 侧 的 图 在 Y 轴 上 也 使 用 了 对 数 标 度 , 和 X 轴 一 样 。 这 幅 图 中 7 的 取 值 范围 是 0~550 
左右 。 如 果 Y 轴 使 用 线性 标 度 , 那么 在 图 的 左 侧 就 很 难看 出 7 值 之 间 的 细微 差别 。 另 一 方面 , 如果 
右 侧 的 图 也 在 Y 轴 使 用 对 数 标 度 ， 那 么 ) 值 就 会 非常 紧密 地 聚 在 一 起 ， 所 以 仍然 使 用 线性 标 度 。 


实际 练习 : 修改 图 15-5 中 的 代码 ， 绘 制图 15-7 中 的 两 张 图 。 


这 两 张 图 比 前 面 的 图 更 容易 解释 。 右 边 的 图 非常 有 力 地 说 明了 ， 当 抛掷 次 数 增加 时 ,正面 向 
上 与 反面 向 上 次 数 的 比 是 收敛 于 1.0 的 。 左 侧 图 形 的 含义 则 不 那么 清晰 ， 它 表明 了 当 投 掷 次 数 增 
加 时 ， 正 面向 上 与 反面 向 上 次 数 的 差 的 绝对 值 会 随 之 增加 ， 但 不 那么 令 人 心悦诚服 。 

不 使 用 总 体 数据 而 只 使 用 抽样 数据 , 是 不 可 能 得 到 完全 准确 的 结果 的 。 不 管 我 们 使 用 了 多 少 
个 样本 ,只 要 没有 检查 总 体 中 所 有 的 数据 ， 就 不 能 确定 样本 集 可 以 代表 总 体 (我 们 还 经 常会 遇 到 
无 限 大 的 总 体 的 情况 , 例如 ,所 有 可 能 出 现 的 抛 硬币 的 序列 。 所 以 ,检查 总 体 经 常 是 不 可 能 的 )。 
当然 ， 这 并 不 是 说 我 们 估计 不 出 精确 的 结果 。 可 以 抛 两 次 硬币 ,一 次 正面 向 上 , 一 次 反面 向 上 ， 
然后 得 出 结论 ， 每 种 情况 的 真实 概率 是 0.5。 我 们 得 到 的 结论 是 正确 的 ,但 推理 过 程 则 是 错误 的 。 
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正面 和 反面 的 差距 ,正面 /反面 的 比例 
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图 15-7 ”硬币 抛掷 次 数 的 影响 

那么 ,需要 使 用 多 少 样本 才能 得 到 令 人 信服 的 结果 呢 ? 这 取决 于 基础 分 布 的 方差 。 简 而 言 之 ， 
方差 是 一 种 测量 方式 ， 用 来 表示 可 能 出 现 的 不 同 结果 的 分 散 程 度 。 更 正式 一 些 , 一 个 数值 集合 的 
方差 XY 可 以 定义 为 : 








> -1) 

加 
这 里 的 0 是 集合 中 元 素 的 数量 ,1 是 均值 。 通 俗 地 说 ,方差 描述 了 集合 中 接近 于 均值 的 数值 的 比 
例 。 如 果 很 多 值 都 非常 接近 均值 ， 方 差 就 会 很 小 。 如 果 很 多 值 都 非常 远离 均值 ， 方 差 就 会 很 大 。 
如 果 所 有 值 都 一 样 ， 方 差 就 是 0。 

一 个 数值 集合 的 标准 差 是 方差 的 平方 根 。 尽管 它 包 含 的 信息 与 方差 完全 相同 , 但 标准 差 更 容 
易 解 释 ， 因 为 它 与 原始 数据 的 单位 是 一 致 的 。 举 例 来 说 ， 相 对 于 “总 体 的 平均 身高 是 70 英 寸 , 方 
差 为 16 平 方 英寸 "， 我 们 更 容易 理解 “总 体 的 平均 身高 是 70 英 寸 ， 标 准 差 为 4 英寸 ”这 种 表达 。 

图 15-8 给 出 了 方差 和 标准 差 的 实现 。” 


variance(X)= 


































































































def variance(X): 

""" 假 设 X 是 一 个 数值 型 列表 。 
返回 X 的 方差 """ 

mean = sum(X)/len(X) 

tot = 60.06 

for x in Xx: 
tot += (x - mean)**2 

return tot/len(X) 


def stdDev(X) : 
"" "假设 X 是 一 个 数值 型 列表 。 
返回 X 的 标准 差 """ 


return variance(X)**@.5 














图 15-8 ”方差 与 标准 差 








Qa 你 根本 不 需要 实现 这 些 代码 。 已 经 有 现成 的 统计 库 实现 了 这 些 函 数 和 其 他 标准 统计 函数 。 但 我 们 仍然 给 出 了 代 
码 ， 因 为 有 些 读 者 更 喜欢 看 代码 而 不 喜欢 看 公式 ， 当 然 这 种 可 能 性 非常 小 。 
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我 们 可 以 使 用 “标准 差 ” 这 一 概念 考虑 计算 结果 可 信和 度 和 所 需 样 本 数量 之 间 的 关系 。 图 15-9 
给 出 了 一 个 也 数 flipPlot 的 修正 版 本 ， 它 在 图 的 上 方 定义 了 两 个 辅助 函数 ， 用 来 进行 多 次 实验 ， 
每 次 实验 中 抛 硬币 的 次 数 都 是 不 一 样 的 。 然 后 绘制 出 abs(heads - tails) 的 均值 和 heads/tails 
这 一 比例 的 均值 ， 以 及 这 两 个 值 的 标准 差 。 辅 助 函 数 makePlot 中 的 代码 用 来 生成 绘图 。 函 数 
runTrial 用 来 模拟 抛 numFlips 次 硬币 的 一 次 实验 。 









































def makeplot(xVals, yVals, title, xLabel, yLabel, style, 
logX = False, logY = False): 

pylab.figure() 
pylab.title(title) 
pylab.xlabel(xLabel) 
pylab.ylabel(yLabel) 
pylab.plot(xVals, yVals, style) 
if logX: 

pylab.semilogx() 
if logY: 

pylab.semilogy() 





def runTrial(numFlips): 
numHeads = 6 
for n in range(numFlips): 
if random.choice(('H', 'T')) == 'H': 
numHeads += 1 
numTails = numFlips - numHeads 
return (numHeads, numTails) 


def flipPlot1(minExp, maxExp, numTrials): 
"" "假设 minExp、maxExp 和 numTrials 为 大 于 6 的 整数 ; minExp<maxExp。 
绘制 出 numTrials 次 硬币 抛 挪 实验 ( 抛 挪 次 数 从 2**minExp 到 2**maxExp) 的 摘要 统计 结果 """ 
ratiosMeans, diffsMeans, ratiosSDs, diffsSDs = [], [], [], [] 
xAxis = [] 
for exp in range(minExp, maxExp + 1): 
xAxis.append(2**exp) 
for numFlips in xAxis: 
ratios, diffs = [], [] 
for t in range(numTrials): 
numHeads, numTails = runTrial(numFlips) 
ratios.append(numHeads/numTails) 
diffs.append(abs(numHeads - numTails)) 
ratiosMeans.append(sum(ratios)/numTrials) 
diffsMeans.append(sum(diffs)/numTrials) 
ratiosSDs.append(stdDev(ratios)) 
diffsSDs.append(stdDev(diffs)) 
numTrialsString = " (' + str(numTrials) + ' Trials) 
title = 'Mean Heads/Tails Ratios' + numTrialsString 
makePlot(xAxis, ratiosMeans, title, 'Number of flips', 
"Mean Heads/Tails', 'ko', logX = True) 
title = 'SD Heads/Tails Ratios' + numTrialsString 
makePlot(xAxis, ratiosSDs, title, 'Number of Flips', 
"Standard Deviation', 'ko', logX = True, logY = True) 











图 15-9 ”硬币 抛掷 模拟 
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我 们 试 一 下 flipPlot1(4，26，26) ， 它 会 生成 图 1$-10 中 的 图 形 。 






























































,25 正面 /反面 的 平均 比例 (20 次 实验 ) ,oo 正面 /反面 的 标准 差 20 次 实验 ) 
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图 15-10 ”正面 /反面 比例 值 的 收敛 

















结果 很 令 人 振奋 。 正 面 /反面 比例 值 收敛 于 1， 并 且 随 着 每 次 实验 中 抛 搓 次 数 的 增加 ， 标 准 差 
也 随 之 线性 降低 。 当 每 次 实验 抛 拨 10 次 硬币 时 ,标准 差 ( 约 为 10”) 大 概 比 均值 ( 约 为 1 ) 低 了 3 
个 数量 级 ,这 说 明 实验 之 间 的 方差 非常 小 。 因 此 , 我 们 可 以 满怀 信心 地 宣布 ,正面 向 上 与 反面 向 
上 次 数 之 间 比 例 的 期 望 值 非常 接近 1.0。 抛 硬币 次 数 越 多 ， 得 到 的 结果 越 精确 ， 而 且 更 重要 的 是 ， 
还 越 有 理由 相信 这 个 结果 更 接近 正确 的 答案 。 

那么 正面 向 上 和 反面 向 上 次 数 的 差 的 绝对 值 呢 ? 我 们 可 以 将 图 15-11 中 的 代码 添加 到 flipPlot1 
的 末尾 ， 然 后 试 着 运行 。 这 会 绘制 出 图 15-12 中 的 图 形 。 






































title = 'Mean abs(#Heads - #Tails)' + numTrialsString 
makePlot(xAxis, diffsMeans, title, 
'Number of Flips', 'Mean abs(#Heads - #Tails)', 'ko', 
logX = True, logY = True) 
title = 'SD abs(#Heads - #Tails)' + numTrialsString 
makePlot(xAxis, diffsSDs, title, 
"Number of Flips', 'Standard Deviation', 'ko', 
logX = True, logY = True) 











图 15-11 差 的 绝对 值 
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图 15-12 ”正面 /反面 的 均值 和 标准 差 


不 出 所 料 ， 差 的 绝对 值 会 随 着 抛掷 次 数 的 增加 而 增加 。 而 且 ， 因 为 这 个 结果 是 20 次 实验 的 平 
均值 ， 所 以 这 个 图 形 明显 比 图 15-7 中 的 图 形 更 加 平滑 ， 那 个 图 形 是 使 用 单 次 实验 的 结果 绘制 的 。 
但 图 15-12 中 右 侧 图 形 的 情况 如 何 呢 ? 标准 差 是 随 着 投掷 次 数 的 增加 而 增加 的 。 这 是 否 意味 着 当 
投掷 次 数 增加 时 ， 这 个 差 的 估计 值 的 可 信 度 不 是 更 大 ， 而 是 更 小 了 呢 ? 

不 ， 当 然 不 是 。 标 准 差 应 该 总 是 和 均值 一 起 考虑 。 如 果 均 值 是 10 亿 ， 标 准 差 是 100， 我 们 
应 该 认为 数据 的 离散 程度 很 小 。 但 如 果 均 值 是 100, 标准 差 也 是 100, 那么 我 们 就 认为 离散 程度 非 
常 大 。 

标准 差 除 以 均值 所 得 的 值 称 为 变异 系数 。 当 我 们 比较 具有 不 同 均值 的 数据 集合 时 〈 比如 
本 例 )， 变 异 系数 比 标准 差 更 合适 。 如 图 15-13 中 的 代码 所 示 ， 当 均值 为 O 时 ， 变 异 系数 是 没有 意 
义 的 。 


























































































































def CV(X): 
mean = sum(X)/len(X) 
try: 
return stdDev(X)/mean 
except ZeroDivisionError: 
return float('nan') 








图 15-13 ”变异 系数 


图 15-14 中 的 函数 可 以 绘制 出 变异 系数 。 除了 flipPlot1 生 成 的 那些 图 形 外 ,这 个 函数 还 可 以 
生成 图 15-15 中 的 图 形 。 
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def flipPlot2(minExp, maxExp, numTrials): 
""" 假 设 minExp、maxExp 为 正 整 数 ;， minExp<maxExp。 
numTrial 为 正 整数 。 
绘制 出 numTrials 次 硬币 抛掷 实验 (抛掷 次 数 从 2##minExp 到 2##maXxEXxp) 的 摘要 统计 结果 """ 
ratiosMeans, diffsMeans, ratiosSDs, diffsSDs = [], [], [], [] 
ratiosCVs, diffsCVs, xAxis = [], [], [] 
for exp in range(minExp, maxExp + 1): 
xAxis.append(2**exp) 
for numFlips in xAxis: 
ratios, diffs = [], [] 
for t in range(numTrials): 
numHeads, numTails = runTrial(numFlips) 
ratios.append(numHeads/float(numTails)) 
diffs.append(abs(numHeads - numTails)) 
ratiosMeans.append(sum(ratios)/numTrials) 
diffsMeans.append(sum(diffs)/numTrials) 
ratiosSDs.append(stdDev(ratios)) 
diffsSDs.append(stdDev(diffs)) 
ratiosCVs.append(CV(ratios)) 
diffsCVs.append(CV(diffs)) 
numTrialsString = " (' + str(numTrials) + ' Trials)' 
title = 'Mean Heads/Tails Ratios' + numTrialsString 
makeplot(xAxis, ratiosMeans, title, 'Number of flips', 

"Mean Heads/Tails', 'ko', logX = True) 
title = 'SD Heads/Tails Ratios' + numTrialsstring 
makepPlot(xAxis, ratiosSDs, title, 'Number of flips', 

"Standard Deviation', 'ko',logX = True, logY = True) 
title = 'Mean abs(#Heads - #Tails)' + numTrialsString 
makeplot(xAxis, diffsMeans, title,'Number of Flips', 

"Mean abs(#Heads - #Tails)', 'ko', 

logX = True, logY = True) 
title = 'SD abs(#Heads - #Tails)' + numTrialsString 
makeplot(xAxis, diffsSDs, title, 'Number of Flips', 

"Standard Deviation', 'ko', logX = True, logY = True) 
title = 'Coeff. of Var. abs(#Heads - #Tails)' + numTrialsString 
makeplot(xAxis, diffsCVs, title, 'Number of Flips', 

"Coeff. of Var.', 'ko', logX = True) 
title = 'Coeff. of Var. Heads/Tails Ratio' + numTrialsString 
makeplot(xAxis, ratiosCVs, title, 'Number of Flips', 

"Coeff. of Var.', 'ko', logX = True, logY = True) 











图 15-14 ”flipPlot1 的 最 终 版 本 
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图 15-15 正面 /反面 和 正面 -反面 的 绝对 值 的 变异 系数 


从 这 两 张 图 中 可 以 看 出 ， 就 表示 正面 /反面 的 比例 的 图 形 来 说 ， 变 异 系数 的 图 形 与 图 15-10 中 
标准 差 的 图 形 相差 不 大 。 这 并 不 奇怪 ， 因 为 二 者 之 间 唯 一 的 区 别 是 变异 系数 是 标准 差 除 以 均值 ， 
而 均值 非常 接近 于 1， 所 以 没有 大 的 差别 。 

但 男 一 方面 ， 对 于 差 的 绝对 值 来 说 ， 变 异 系数 的 图 形 则 与 标准 差 的 图 形 完全 不 同 。 图 15-12 
中 的 标准 差 表 现 出 了 明显 的 趋势 ,可 是 如 果 你 认为 图 15-15 右 边 的 变异 系数 也 存在 某 种 趋势 的 话 ， 
那 你 还 真是 无 所 车 惧 。 它 的 波动 非常 大 ， 这 表明 abs (heads - tails) 的 值 的 离散 程度 与 硬币 抛 
掷 次 数 无 关 , 既 不 会 像 误 导 我 们 的 标准 差 那 样 随 之 增加 , 也 不 会 随 之 减少 。 如 果实 验 次 数 不 是 20， 
而 是 1000， 是 否 可 能 出 现 明显 趋势 呢 ” 那 我 们 就 来 试 一 下 。 

变异 系数 的 绝对 差 信 (正面 -反面 ) (1000 次 实验 ) 
: 和 
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图 15-16 ”很 多 次 实验 


在 图 15-16 中 ， 似 乎 变异 系数 稳定 地 分 布 在 0.74~0.78 这 个 区 间 附 近 。 一 般 来 说 ， 变 异 系数 的 
值 如 果 小 于 1， 就 可 以 认为 方差 很 小 。 

与 标准 差 相 比 , 变异 系数 的 主要 优点 是 , 它 可 以 用 来 比较 具有 不 同 均 值 的 数据 集合 的 离散 程 
度 。 例 如 ， 考 虑 一 下 澳大利亚 联邦 不 同 地 区 的 每 周 收入 的 分 布 ， 如 图 15-17 所 示 。 
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图 15-17 澳大利亚 联邦 收入 分 布 


如 果 使 用 标准 差 作 为 衡量 收入 不 平等 的 方式 , 那么 塔 斯 马 尼 亚 地 区 的 收入 不 平等 性 看 似 显著 
小 于 ACT (澳大利亚 首都 特区 ) 地 区 。 但 是 ， 如 果 看 一 下 变异 系数 (ACT 为 0.32， 塔 斯 马 尼 亚 为 
0.42 )， 就 可 以 得 到 完全 相反 的 结论 。 

这 并 不 是 说 变异 系数 总 是 比 标准 差 更 有 用 处 。 如 果 均 值 接近 于 0， 那 么 均值 的 一 个 微小 改变 
就 会 导致 变异 系数 发 生 非 常 大 (但 不 一 定 有 意义 ) 的 变化 。 而 且 均 值 为 "0 时， 变异 系数 是 没有 意 
义 的 。 还 有 ， 正 如 我 们 将 在 15.4.2 节 中 看 到 的 ,标准 差 可 以 用 来 构造 置信 区 间 ， 变 异 系数 则 不 能 。 


15.4 ”分 布 


直方 图 用 来 表示 数据 集中 数值 的 分 布 。 它 先 对 数值 进行 排序 , 再 将 其 分 到 国定 数量 的 等 宽 区 间 
中 ， 然 后 绘制 一 张 图 表示 每 个 区 间 中 的 元 素数 量 。 在 图 15-18 中 ， 左 侧 的 代码 会 生成 右 侧 的 图 形 。 





















































vals = [] 
for i in range(1666) : 
num1l = random.choice(range(6，1611) 
num2 = random.choice(range(6，161) 
vals.append(numl+num2) 
pylab.hist(vals, bins = 16) 
pylab.xlabel( ‘Number of Occurrences’) 








图 15-18 ”代码 及 其 生成 的 直方 图 
函数 调用 pylab.hist(vals，bins = 16) 会 生成 一 张 具 有 10 个 等 宽 区 间 的 直方 图 。Pylab 会 
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按照 区 间 数 量 和 数值 范围 自动 选择 区 间 宽 度 。 从 代码 中 可 以 看 出 ，vals 中 的 最 小 值 可 能 是 0， 最 
大 值 可 能 是 200。 因 此 ，X 轴 的 取 值 范 围 应 该 是 0~200。 每 个 区 间 都 包含 X 轴 上 相同 数量 的 值 ， 所 
以 第 一 个 区 间 包 含 0~19 的 值 ， 第 二 个 区 间 包 含 20~39 的 值 ， 以 此 类 推 。 


实际 练习 : 图 15-18 中 ， 为 什么 直方 图 的 中 间 区 间 比 两 侧 区 间 高 ? 提示: 想 一 下 ， 扔 2 个 禹 子 
时 ， 为 什么 最 容易 扔 出 7? 


现在 , 你 肯定 已 经 对 抛 硬币 烦 透 了 。 但 是 , 我 们 还 是 要 再 介绍 一 个 对 抛 硬币 的 模拟 。 图 15-19 
中 的 模拟 程序 展示 了 Pylab 更 多 的 绘图 能 力 ， 并 使 我 们 对 标准 差 的 意义 有 一 个 更 加 直观 的 理解 。 
它 生成 2 张 直方 图 , 第 一 张 图 表示 模拟 100 000 次 抛 硬币 实验 的 结果 , 每 次 实验 中 抛掷 均匀 硬币 100 
次 ; 第 二 张 图 表示 的 也 是 模拟 10 万 次 抛 硬币 实验 的 结果 ， 但 每 次 实验 中 抛掷 均匀 人 硬币 1000 次 。 

pylab.annotate 方 法 用 来 向 直方 图 加 入 一 些 统计 量 ， 其 中 第 一 个 参数 是 要 显示 在 图 中 的 字 
符 串 ， 后 面 两 个 参数 用 来 控制 字符 串 的 位 置 ， 参 数 xycoords = 'axes fraction' 表 示 文 本 的 位 
置 是 以 图 形 宽 度 和 高 度 的 比例 来 控制 的 ， 参 数 xy = (8.67，8.5) 表 示 文 本 开始 位 置 为 距 图 形 左 
边界 三 分 之 二 、 下 边界 二 分 之 一 的 地 方 。 
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def flip(numFlips): 
""" 假 设 numFlips 是 正 整 数 """ 
heads = 6 
for i in range(numFlips): 
if random.choice(('H', 'T')) == 'H': 
heads += 1 
return heads/float(numFlips) 


def flipSsim(numFlipsPerTrial, numTrials): 
fracHeads = [] 
for i in range(numTrials): 
fracHeads.append(flip(numFlipsPerTrial)) 
mean = sum(fracHeads)/len(fracHeads) 
sd = stdDev(fracHeads) 
return (fracHeads, mean, sd) 


def labelPlot(numFlips, numTrials, mean, sd): 
pylab.title(str(numTrials) + ' trials of ' 
+ str(numFlips) + ' flips each') 
pylab.xlabel('Fraction of Heads') 
pylab.ylabel('Number of Trials') 
pylab.annotate('Mean = ' + str(round(mean, 4))\ 
+ '\nNSD = ' + str(round(sd, 4)), size='x-large', 
xycoords = 'axes fraction', xy = (86.67, 8.5)) 


def makePlots(numFlips1, numFlips2, numTrials): 
vall, mean1l, sd1l = flipSim(numFlips1, numTrials) 
pylab.hist(vall, bins = 20) 
xmin,xmax = pylab.xlim() 
labelPlot(numFlips1, numTrials, mean1, sd1) 
pylab.figure() 
val2, mean2, sd2 = flipSim(numFlips2, numTrials) 
pylab.hist(val2, bins = 20) 
pylab.xlim(xmin, xmax) 
labelPlot(numFlips2, numTrials, mean2, sd2) 


makePlots(166，16686，166666) 


图 15-19 ”绘制 抛 和 硬币 的 直方 图 
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为 了 方便 两 幅 图 的 比较 , 我 们 使 用 pylab .xlim 将 第 二 幅 图 的 X 轴 范围 强行 设 定 为 与 第 一 幅 图 
的 X 轴 范围 相同 ， 而 不 让 Pylab 自 动 选择 。 

运行 图 15-19 中 的 代码 ， 会 生成 图 15-20 中 的 两 幅 图 形 。 请 注意 ， 尽 管 两 幅 图 中 的 均值 几乎 一 
样 ， 但 标准 差 的 差别 却 非常 大 。 与 每 次 实验 抛 100 次 硬币 相 比 ， 每 次 实验 抛 1000 次 硬币 得 到 的 结 
果 显 然 分 布 得 更 加 紧密 。 

















eo 100 000 次 实验 ， 每 次 抛 100 次 硬币 100 000 次 实验 ， 每 次 抛 1000 次 硬币 
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图 15-20” 抛 硬币 的 直方 图 




















15.4.1 概率 分 布 


直方 图 表示 的 是 一 种 频率 分 布 ， 它 告诉 我 们 一 个 随机 变量 的 取 值 落 在 某 个 范围 内 的 频繁 程 
度 。 例如 , 硬币 正面 向 上 的 次 数 比 例 为 0.4~0.5 频 率 。 直 方 图 还 可 以 对 不 同 范围 之 间 的 频率 进行 比 
较 ， 例 如 ， 我 们 可 以 很 容易 地 看 出 ， 正 面向 上 的 比例 落 为 0.4~0.5 的 频率 要 远 远 大 于 落 在 0.3~0.4 
的 频率 。 概 率 分 布 给 出 一 个 随机 变量 取 值 在 某 个 范围 内 的 概率 ， 并 以 此 反映 相对 频率 。 

根据 随机 变量 是 离散 型 的 还 是 连续 型 的 , 概率 分 布 可 以 分 成 两 类 : 离散 型 概率 分 布 和 连续 型 
概率 分 布 。 离 散 型 随机 变量 的 取 值 是 一 个 有 限 集合 ， 如 掷 骨 子 的 结果 ; 连续 型 随机 变量 的 取 值 可 
以 是 无 限 的 ， 可 以 是 两 个 实数 之 间 的 任意 一 个 实数 。 例 如 ,汽车 的 行驶 速度 可 以 在 0 英里 /小 时 和 
最 大 行驶 速度 之 间 。 

离 表 型 概率 分 布 很 容易 描述 , 因为 变量 取 值 是 有 限 的 , 所 以 只 要 简单 列 出 每 个 值 的 概率 即 可 

连续 型 概率 分 布 则 更 复杂 一 些 。 因 为 有 无 限 多 个 可 能 的 取 值 , 所 以 连续 型 随机 变量 取 某 个 特 
定 的 值 的 概率 通常 为 0。 例 如 , 汽车 的 行驶 速度 正好 为 81.3457283 英 里 /小 时 的 概率 大 概 就 是 0。 数 
学 家 们 喜欢 用 概率 密度 函数 (probability density function ) 来 描述 连续 型 概率 分 布 ， 并 经 常 将 其 缩 
写 为 PDF。PDF 描 述 了 一 个 随机 变量 位 于 两 个 数值 之 间 的 概率 。 你 可 以 将 PDF 看 作 定 义 在 X 轴 上 
随机 变量 的 最 小 值 与 最 大 值 之 间 的 一 条 曲线 。( 有 时 候 ，X 轴 是 无 限 长 的 。) 如 果 假 设 x1 和 x2 是 随 
机 变量 的 两 个 值 , 那么 随机 变量 取 值 在 x1 和 x2 之 间 的 概率 就 是 x1 和 x2 之 间 的 曲线 下 面积 。 图 15-21 
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中 展示 了 表达 式 random.rando() 和 random.random() + random.random() 的 概率 密度 函数 。 


random.random() 的 PDF random.random() + random.random() 的 PDF 
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图 15-21 random.random 的 概率 密度 函数 


对 于 random.random，0 和 1 之 间 的 曲线 下 面积 为 1， 这 完全 正确 。 因 为 我 们 知道 ， 
random.random() 返 回 一 个 0~1 的 值 的 概率 就 是 1。 或 者 ， 考 虑 一 下 0.2~0.4 的 曲线 下 面积 ， 应 该 是 
0.2， 这 表示 random.random() 返 回 一 个 0.2~0.4 的 值 的 概率 是 0.2。 同 理 ， 对 于 random.random() + 
random.random() ，0 和 2 之 间 的 曲线 下 面积 是 1，0 和 1 之 间 的 曲线 下 面积 是 0.5。 请 注意 ， 通 过 
random.random() 的 PDF 可 以 看 出 ， 只 要 区 间 宽 度 相 等 ， 那 么 函数 取 值 落 在 不 同 区 间 内 的 概率 都 
是 相等 的 。random.random() + random.random() 则 不 同 ， 函 数 取 值 落 在 某 些 区 间 的 概率 要 上 比 
其 他 区 间 大 。 


















































15.4.2” 正 态 分 布 
正 态 分 布 ( 又 称 高 斯 分 布 ) 由 以 下 概率 密度 函数 定义 : 


GAO 
1 
e A 





P(X) = 





ON2N 


这 里 的 4 表示 均值 ，o 表 示 标 准 差 ，e 是 欧 拉 数 ( 大 约 为 2.718 )。™ 
如 果 你 不 想 学 习 这 个 公式 也 没有 问题 ， 只 需 记 住 正 态 分 布 在 均值 处 达到 最 大 值 , 并 在 均值 两 
侧 对 称 地 减 小 ， 逐 渐 趋 近 于 0。 正 态 分 布 具有 良好 的 数学 特性 ， 它 可 以 由 两 个 参数 完全 确定 : 均 
值 和 标准 差 ( 公式 中 仅 有 的 两 个 参数 )。 知 道 这 两 个 值 就 等 于 知道 了 整个 分 布 。 正 态 分 布 的 形状 
(在 某 些 人 眼中 ) 有 点 像 钟 ， 所 以 有 时 又 被 称 为 钟 形 曲线 。 
图 15-22 展 示 了 均值 为 0、 标 准 差 为 1 的 正 态 分 布 的 PDF。 我 们 只 能 给 出 该 PDF 的 一 部 分 ， 因为 
正 态 分 布 曲线 无 限 接近 于 0,， 但 并 未 到 达 0。 原 则 上 ， 没有 任何 值 的 发 生 概率 是 0。 




















Q 和 一 样 ，e 也 是 一 个 奇妙 的 无 理 数 ， 在 数学 中 无 处 不 在 。 它 最 常用 来 表示 自然 对 数 的 底 。e 有 很 多 种 等 价 的 定义 
方式 ， 其 中 一 种 是 当 x 趋 向 于 无 穷 大 时 ，(1+1/x) 的 值 。 
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正 态 分 布 均值 =0 标准 差 =1 . 




















图 15-22” 正 态 分 布 


使 用 Python 程 序 非常 容易 生成 正 态 分 布 ， 调 用 函数 random. gauss (mu，sigma) 即 可 ， 这 个 函 
数 会 从 一 个 均值 为 nu、 标 准 差 为 sigma 的 正 态 分 布 中 随机 返回 一 个 浮 点 数 。 

因为 正 态 分 布 具 有 良好 的 数学 特性 ,所 以 经 常 被 用 来 构造 概率 模型 。 当 然 ， 一 个 模型 如 果 仅 
仅 是 数学 特性 良好 ,但 是 不 能 很 好 地 模拟 实际 数据 , 那 它 还 是 没有 什么 用 处 。 幸 运 的 是 ,很 多 随 
机 变量 的 分 布 都 近似 于 正 态 分 布 。 例如， 植物 和 动物 的 自然 属性 ( 如 高 度 、 重 量 、 体 温 ) 通常 是 
近似 于 正 态 分 布 的 。 更 重要 的 是 , 很 多 实验 的 测量 误差 是 服从 正 态 分 布 的 。 在 19 世 纪 早 期 , 德国 
数学 家 和 物理 学 家 卡尔 : 高 斯 就 使 用 了 这 个 假设 , 他 在 天 文 数据 分 析 中 假设 测量 误差 是 服从 正 态 
分 布 的 ( 这 就 是 正 态 分 布 在 很 多 科学 社区 中 被 称 为 高 斯 分 布 的 原因 )。 

正 态 分 布 的 一 个 良好 特性 是 均值 和 标准 差 的 独立 性 ,如果 想 包括 固定 比例 的 数据 , 那么 从 均 
值 开 始 所 需 的 标准 差 个 数 是 一 个 常数 。 举 例 来 说 ， 大 约 68.27% 的 数据 都 位 于 距 均 值 1 个 标准 差 的 
范围 内 , 大 约 95.45% 的 数据 位 于 距 均 值 2 个 标准 差 的 范围 内 , 大 约 99.73% 的 数据 位 于 距 均值 3 个 标 
准 差 的 范围 内 。 人 们 有 时 将 这 种 情况 称 为 68-95-99.7 法 则 ， 但 更 多 时 候 将 其 称 为 经 验 法 则 。 

通过 定义 正 态 分 布 的 公式 可 以 计算 曲线 下 的 面积 ， 从 而 推导 出 上 面 的 法 则 。 在 图 15-22 中 ， 
可 以 很 容易 地 看 出 曲线 下 面积 大 约 有 三 分 之 二 位 于 -1~1， 大 约 有 95% 位 于 -2~2 ， 几 乎 全 部 位 于 
-3~3。 但 这 仅 是 一 个 例子 ,从 一 个 例子 就 开始 总 结 推广 一 般 是 靠不住 的 。 我 们 也 可 以 根据 维基 百 
科 的 不 容 质疑 的 权威 性 来 接受 这 条 经 验 法 则 , 但 是 , 为 了 更 有 把 握 ， 也 为 了 找 个 借口 介绍 一 个 值 
得 学 习 的 Python 库 ， 我 们 还 是 准备 亲自 验证 。 

SciPy 库 包含 了 很 多 科学 家 和 工程 师 经 常 使 用 的 数学 函数 。SciPy 是 以 模块 组 织 的 ， 其 中 的 模 
块 覆 盖 了 各 个 不 同 的 科学 计算 领域 ， 比 如 信和 号 处 理 和 图 像 处理 。 在 后 面 的 内 容 中 , 我 们 会 使 用 一 
些 SciPy 中 的 函数 。 现 在 , 我们 要 使 用 函数 scipy .integrate.quad 求 一 个 函数 在 两 个 点 之 间 的 积 
分 的 近似 值 。 
函数 sci.py.integrate.quad 有 3 个 必需 的 参数 和 一 个 可 选 的 参数 : 

口 一 个 要 进行 积分 的 函数 或 方法 ( 如 果 这 个 函数 有 多 个 参数 , 就 按照 第 一 个 参数 进行 积分 ); 
口 表示 积分 下 限 的 数值 ; 
口 表示 积分 上 限 的 数值 ; 
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口 一 个 可 选 的 元 组 ， 为 要 进行 积分 的 函数 提供 所 有 参数 ， 第 一 个 参数 除外 。 

quad 函 数 返回 一 个 由 两 个 浮 点 数组 成 的 元 组 , 其 中 第 一 个 浮 点 数 是 积分 的 近似 值 , 第 二 个 浮 
点 数 是 对 结果 中 绝对 误差 的 一 个 估计 值 。 

举 个 例子 , 假设 我 们 想 计算 一 元 函数 abs 在 区 间 0~5 的 积分 。 不 需要 任何 高 深 的 数学 知识 就 可 
以 计算 出 这 个 函数 的 曲线 下 面积 : 它 就 是 一 个 底 和 高 都 是 5 的 三 角形 的 面积 ， 也 就 是 12.5。 所 以 ， 
不 出 所 料 ， 以 下 代码 : 

print scipy.integrate.quad(abs, 06, 5)[8] 
会 输出 12.5。( quad 函 数 返 回 的 元 组 中 的 第 二 个 值 大 约 是 10”“， 说 明 这 个 近似 值 已 经 非常 准确 
了 。 ) 

图 15-23 中 的 代码 可 以 计算 出 正 态 分 布 的 曲线 下 面积 ， 正 态 分 布 的 均值 和 标准 差 都 是 随机 选 
择 的。 请 注意 ，gaussian 是 个 三 元 函数 ， 因 此 ， 以 下 代码 : 

print scipy.integrate.quad(gaussian, -2, 2, (06, 1))[e] 


的 输出 结果 是 : 均值 为 90、 标准 差 为 1 的 正 态 分 布 在 -2~2 的 积分 。 




































































import scipy.integrate 


def gaussian(x, mu, sigma): 
factor1 = (1.6/(sigma*((2*pylab.pi)**0.5))) 
factor2 = pylab.e**-(((x-mu)**2)/(2*sigma**2)) 
return factor1i*factor2 


def checkEmpirical(numTrials): 
for t in range(numTrials): 
mu = random.randint(-106, 106) 
sigma = random.randint(1, 106) 
print('For mu ="', mu, 'and sigma =', sigma) 
for numstd in (1, 2, 3): 
area = scipy.integrate.quad(gaussian, mu-numStd*sigma, 
mutnumStd*sigma, 
(mu, sigma))[e] 
print(' Fraction within', numStd, 'std ="', 
round(area, 4)) 
checkEmpirical(3) 

















图 15-23 ”验证 经 验 法 则 


运行 图 15-23 中 的 代码 ， 会 输出 完全 符合 经 验 法 则 的 结 是 


ii 





For mu = -1 and sigma = 6 
Fraction within 1 std = 6.6827 
Fraction within 2 std = 6.9545 
Fraction within 3 std = 6.9973 


For mu = 9 and sigma = 9 
Fraction within 1 std 
Fraction within 2 std 


0.6827 
80.9545 


198 第 15 章 ”随机 程序 、 概 率 与 分 布 





Fraction within 3 std = 6.9973 
For mu = 1 and sigma = 5 


Fraction within 1 std = 6.6827 
Fraction within 2 std = 868.9545 
Fraction within 3 std = 6.9973 


经 验 法 则 








经 常 被 用 来 得 到 置信 区 间 。 对 于 一 个 未 知 的 值 ， 我 们 不 应 该 估计 出 一 个 单一 的 值 ， 


而 是 应 该 使 用 置信 区 间 提 供 一 个 可 能 包含 这 个 未 知 值 的 范围 , 以 及 这 个 未 知 值 落 入 这 个 范围 的 确 
一 项 政治 民意 调查 显示 , 在 95% 的 置信 水 平 下 , 候选 人 会 得 到 52% 土 4% 的 选票 (也 


定 程 度 。 例 如 ， 
就 是 说 ， 置 信 














区 间 为 8 个 单位 )。 这 就 是 说 ， 民 意 调查 分 析 者 相信 ， 候 选 人 得 到 48%~56% 的 选票 





的 可 能 性 为 95%。" 将 置信 区 间 和 和 置信 水 平 结合 起 来 ， 就 可 以 表示 估计 值 的 可 靠 程度 。 提 高 置信 
水 平 几乎 总 是 会 使 置信 区 间 变 大 。 

假设 进行 100 次 抛 硬币 实验 ， 每 次 抛 100 次 硬币 ， 再 假设 正面 向 上 比例 的 均值 是 0.4999， 标 准 
差 为 0.0497。 我 们 可 以 假设 这 些 实验 的 均值 服从 正 态 分 布 ， 理 由 将 在 17.2 节 进行 讨论 。 因 此 可 以 
得 出 结论 ， 如 果 再 进行 更 多 次 这 样 的 实验 ， 则 会 有 : 





口 正面 向 
口 正面 向 











使 用 误差 条 对 置信 区 间 进 行 可 视 化 通常 很 有 用 。 图 1$-24 中 的 函数 showErrorBars 先 调用 图 















































上 比例 在 0.4999 + 0.0994 之 间 的 概率 约 为 95%; 
上 比例 在 0.4999 土 0.1491 之 间 的 概率 超过 99%。 











15-19 中 的 flipsim 函 数 ， 然 后 使 用 以 下 代码 生成 一 张 图 : 

pylab.errorbar(xVals, means, yerr = 1.96*pylab.array(sds)) 
了 要 绘制 的 x 值 和 y 值 ， 第 3 个 参数 表示 应 该 先 将 sds 中 的 值 乘 以 1.96， 青 根据 乘积 创 
建 垂直 的 误差 条 。 乘 以 1.96 是 因为 正 态 分 布 中 95% 的 数据 都 在 距离 均值 1.96 个 标准 差 的 范围 内 。 


前 两 个 参数 给 出 
























































def 





showErrorBars(minExp, maxExp, numTrials): 
"" 假 设 minExp 和 maXxExp 是 正 整 数 ; minExp<maxExp 
numTrials 是 一 个 正 整 数 
用 误差 条 绘制 出 正面 向 上 的 平均 比例 " 
means, sds, xVals = [], [], [] 
for exp in range(minExp, maxExp + 1): 
xVals.append(2**exp) 
fracHeads, mean, sd = flipSim(2**exp, numTrials) 
means .append(mean) 
sds.append(sd) 
pylab.errorbar(xVals, means, yerr=1.96*pylab.array(sds)) 
pylab.semilogx() 
pylab.title('Mean Fraction of Heads (' 
+ str(numTrials) + ' trials)') 
pylab.xlabel('Number of flips per trial') 
pylab.ylabel('Fraction of heads & 95% confidence') 








图 15-24 ”生成 带 有 误差 条 的 图 形 























© 对 于 民意 调查 9 置信 区 间 通 常 古 不 是 使 












































] 多 次 调查 的 标准 差 佑 计 出 来 的 。 他 们 使 用 标准 误 








差 作为 替代 方式 ， 参 见 173 
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调用 showErrorBars(3，16，166) 会 生成 图 1$-25 中 的 图 形 。 不 出 所 料 ， 每 次 实验 中 硬币 的 
抛掷 次 数 逐 潮 增 加 时 ， 误 差 条 逐渐 变 短 (标准 差 逐渐 变 小 )。 
正面 的 平均 比率 (100 次 实验 ) 
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正面 的 比率 
图 15-25” 带 有 误差 条 的 估计 

















15.4.3 ”连续 型 和 离散 型 均匀 分 布 


假设 你 想 在 一 个 车 站 搭乘 公共 汽车 ,汽车 每 15 分 钟 一 班 。 如 果 没 有 按照 发 车 时 间 表 到 达 车 站 ， 
那么 你 的 预期 等 待 时 间 就 是 一 个 0~15 分 钟 的 均匀 分 布 。 

均匀 分 布 可 以 是 离散 型 的 , 也 可 以 是 连续 型 的 。 连 续 型 均匀 分 布 也 称 为 矩形 分 布 ， 它 的 特点 
是 所 有 长 度 相同 的 区 间 都 具有 相同 概率 。 考 虑 一 下 函数 random.random， 正 如 我 们 在 15.4.1 节 中 
见 到 的 ， 给 定 一 个 长 度 的 话 ，PDF 下 面 任何 同样 长 度 的 区 间 的 面积 都 是 相等 的 。 例 如 ，0.23~0.33 
的 曲线 下 面积 与 0.53~0.63 的 曲线 下 面积 是 相等 的 。 

我 们 可 以 使 用 一 个 参数 完全 描述 出 连续 型 均匀 分 布 的 特性 , 即 它 的 范围 (也 就 是 最 小 值 和 最 
大 值 )。 如 果 可 能 取 值 的 范围 是 min~max， 那 么 一 个 值 落 入 x~y 的 概率 可 以 由 以 下 公式 给 出 : 


Jy—X 







































































En 若 x 宇 min Hly 二 max 
0 其 他 

调用 random.uniform(min，max) 可 以 生成 一 个 连续 型 均匀 分 布 的 值 ， 它 会 返回 在 min 和 max 
之 间 随 机 选择 的 一 个 浮 点 数 。 

离散 型 均匀 分 布 描述 的 是 ,结果 不 是 连续 的 而 且 每 个 结果 发 生 的 概率 完全 相同 的 情况 ,例如 ， 
撕 出 一 个 均匀 的 贷 子 时 , 6 个 数字 出 现 的 可 能 性 都 是 一 样 的 。 但 结果 在 1~6 的 实数 范围 内 却 不 是 均 
匀 分 布 的 ， 大 多 数 的 值 一 一 比如 2.5 一 一 出 现 的 可 能 性 是 0， 而 少数 值 一 一 比如 3 一 一 出 现 的 概率 
是 116。 我 们 可 以 使 用 下 面 的 公式 来 完整 地 描述 离散 型 均匀 分 布 : 
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ee 若 xe5 
P(x)=3|S | 


0 其 他 
这 里 的 是 可 能 出 现 的 结果 的 集合 ，|S| 是 5 中 的 元 素数 量 。 
15.4.4 ”二 项 式 分 布 与 多 项 式 分 布 


只 能 在 一 个 离散 集合 中 取 值 的 随机 变量 称 为 分 类 变量 ， 也 称 名 义 变 量 或 离散 变量 。 

如 果 分 类 变量 只 可 能 有 两 个 值 ( 如 成 功 或 失败 )， 那 么 这 时 的 概率 分 布 就 称 为 二 项 式 分 布 。 
可 以 将 二 项 式 分 布 理解 为 a 次 独立 实验 中 正好 成 功 次 的 概率 。 如 果 单 次 实验 成 功 的 概率 为 p， 那 
么 n 次 独立 实验 中 正好 成 功 次 的 概率 可 以 由 以 下 公式 给 出 : 


® | pk nk 
加 区。 (1 -pz) 


人: nl 
Kk) kl*(n—k)! 


父 吉 人为 = 机 去 素数 它 的 一 种 读 法 是 “人选 户 ， 因 为 它 等 价 于 从 大 小 为 的 集合 中 选择 
出 的 大 小 为 的 子 集 数量 。 例 如 : 


























这 里 的 











4 _ 4 _24._, 
2) 2lx2! 4 


从 集合 行 ,2, 3, 4} 中 能 选择 出 6 个 包含 两 个 元 素 的 集合 。 

在 15.2 节 中 ， 我 们 提出 了 一 个 问题 ， 即 扔 10 次 骨 子 时 ， 正 好 扔 出 两 个 1 的 概率 是 多 少 。 现 在 
我 们 就 有 了 合适 的 工具 来 计算 这 个 概率 。 可 以 将 扔 10 次 山 子 看 成 10 次 独立 实验 ， 如 果 扔 出 1， 则 
实验 成 功 ， 扔 出 其 他 情况 则 失败 。 二 项 式 分 布 会 告诉 我 们 在 10 次 实验 中 正好 成 功 两 次 的 概率 为 : 


四 四 A Le SD ot 
2) \6) \56 36 1679616 

实际 练习 : 实现 一 个 函数 ， 计 算 扔 砍 蜗 子 时 正好 扔 出 两 个 3 的 概率 ， 并 绘制 出 具 2~100 时 的 
概率 变化 。 


多 项 式 分 布 是 二 项 式 分 布 的 推广 ， 用 来 描述 取 值 多 于 两 个 的 分 类 数据 。 如 果 在 n 次 独立 实验 
中 ， 每 次 实验 都 存在 m 个 具有 固定 概率 的 互相 排斥 的 结果 ， 那 么 这 时 候 适 用 于 多 项 式 分 布 。 多 项 
式 分 布 可 以 给 出 各 种 结果 的 任何 一 种 组 合 发 生 的 概率 。 
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15.4.5 ”指数 分 布 和 几何 分 布 


指数 分 布 非 常常 见 , 它 经 常用 来 对 两 次 输入 的 时 间 间 隔 进行 建 模 。 例如， 汽车 进入 高 速 公路 
的 间隔 时 间 和 访问 网 页 的 时 间 间 隔 。 

考虑 一 种 药物 在 人 体 中 的 浓度 变化 。 假 设 在 每 个 时 间 段 内 , 每 个 分 子 被 清除 ( 即 被 排出 体外 ) 
的 概率 是 常数 p。 系 统 是 无 记忆 的 ， 即 在 每 个 时 间 段 内 ， 一 个 分 子 被 清除 的 概率 与 上 一 个 时 间 段 
发 生 的 事情 无 关 。 当 时 间 t = 0 时 ， 一 个 分 子 在 人 体内 的 概率 为 1。 当 ! = 1 时 ， 这 个 分 子 仍然 留 在 
人 体内 的 概率 就 是 1 -p。 当 t= 2 时 ， 这 个 分 子 仍然 留 在 人 体内 的 概率 就 是 (1 - 站。 更 一 般 地 说 ， 
当时 间 为 时 ， 一 个 分 子 仍然 留 存在 体内 的 概率 是 (1 -p)， 即 与 城 指数 关系 。 

假设 在 时 间 w 时 ， 还 有 药物 的 Mo 个 分 子 ， 那么 一 般 来 说 ， 在 时 间 时 ， 分 子 的 数量 为 Mo 乘 以 
一 个 分 子 在 时 间 t 时 留存 的 概率 。 图 15-26 中 的 函数 clear 绘 制 出 了 随时 间 变 化 的 留存 分 子 的 期 望 
数量 。 
























































def clear(n, p, steps): 
""" 假 设 n 和 steps 都 是 正 整 数 ，p 是 个 浮 点 数 
n: 分子 的 初始 数量 
p: 一 个 分 子 被 清除 的 概率 
steps: 模拟 的 时 间 长 度 """ 
numRemaining = [n] 
for t in range(steps) : 
numRemaining.append(n*((1-p)**t)) 
pylab.plot(numRemaining) 
pylab.xlabel('Time') 
pylab.ylabel('Molecules Remaining') 
pylab.title('Clearance of Drug') 














图 15-26 ”分子 的 指数 清除 
调用 clear(1686，68.61，1666) 会 生成 图 15-27 中 的 图 形 。 
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图 15-27 ”指数 衰减 
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这 是 指数 衰减 的 一 个 例子 。 实 际 上 ， 指 数 衰减 经 常用 半衰期 来 描述 ， 即 初始 值 衰减 到 50% 所 
需 的 时 间 。 独 立 的 项 目 也 可 以 有 半 误 期。 例如, 一 个 药物 分 子 的 半衰期 就 是 指 它 被 清除 的 概率 达 
到 0.5 所 需 的 时 间 。 请 注意 ， 当 时 间 逐 渐 增 加 时 ， 剩 余 的 分 子 数 逐 渐 趋 近 于 0， 但 永远 不 能 到 达 0。 
对 这 种 情况 ,不 应 该 解释 为 总 会 有 一 些 分 子 幸存 下 来 ， 而 应 该 这 样 解释 : 因为 系统 是 概率 性 的 ， 
所 以 永远 不 能 保证 所 有 分 子 都 被 清除 。 

如 果 我 们 将 Y 轴 改 为 对 数 标 度 〈 使 用 pylab.semilogy ) 会 怎样 呢 ? 将 得 到 图 15-28 中 的 图 形 。 
在 图 15-27 中 ，Y 轴 上 的 值 相 对 于 X 轴 上 的 值 是 以 指数 形式 快速 衰减 的 。 如 果 使 Y 轴 的 坐标 值 也 按 
照 指数 关系 变化 ， 就 会 得 到 一 条 直线 。 这 条 直线 的 斜率 就 是 衰减 率 。 






























































药物 清除 情况 
10 
10? 
喇 
枚 10!F 
什 
外 
优 109 上 
局 
107 
10? 1 1 1 1 
0 200 400 600 800 1000 
时 间 











图 15-28 ”使 用 对 数 坐 标 轴 绘制 指数 衰减 


指数 增长 是 指数 衰减 的 反义词 。 指 数 增 长 也 很 常见 , 复 利 的 计算 、 游 泳池 中 水 藻 的 生长 、 原 
子弹 中 的 链 式 反应 等 ， 都 是 指数 增长 的 例子 。 

在 Python 语言 中 , 生成 指数 分 布 非常 容易 , 调用 函数 random.expovariate(1lambd) 即 可 , "这 
里 的 lambd 是 想得到 的 均值 的 倒数 。 如 果 lambd 是 个 正 数 , 函数 会 返回 0 和 正 无 穷 大 之 间 的 一 个 值 ; 
如 果 1lambd 是 个 负数 ， 则 返回 负 无 穷 大 和 0 之 间 的 一 个 值 。 

几何 分 布 是 指数 分 布 的 离散 模拟 ,“ 经 常用 于 描述 在 第 一 次 成 功 (或 第 一 次 失败 ) 之 前 所 需 
的 独立 尝 斌 次数。 举例 来 说 ,假设 你 有 一 辆 很 旧 的 汽车 ， 当 你 转动 钥匙 (或 按 下 启动 按钮 ) 时 ， 
它 只 有 50% 的 概率 能 够 启动 。 几 何 分 布 就 可 以 用 来 描述 在 成 功 之 前 尝试 启动 汽车 的 次 数 。 几 何 分 
布 可 以 用 图 15-30 中 的 直方 图 表示 ， 这 个 图 是 由 图 15-29 中 的 代码 生成 的 。 







































































Q@ 这 个 参数 本 来 应 该 是 lambda， 但 是 从 5.4 节 可 知 ，lambda 是 Python 的 一 个 保留 字 。 

加 之 所 以 称 为 “几何 分 布 "， 是 因为 它 与 “几何 级 数 ” 非 常 相似 。 几 何 级 数 是 一 个 数值 序列 ， 除 了 第 一 个 数值 以 
外 ， 其 他 数值 都 对 前 一 个 数值 乘 以 一 个 非 零 常数 而 得 到 。 欧 几 里 得 在 《几何 原本 》 中 证 明了 很 多 关于 几何 级 
数 的 有 趣 定理 。 
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def successfulStarts(successProb, numTrials): 
""" 假 设 successProb 是 一 个 浮 点 数 ， 表 示 单 次 尝试 成 功 的 概率 。numTrials 是 个 正 整 数 。 
返回 一 个 列表 ， 其 中 的 元 素 是 每 次 实验 成 功 之 前 的 尝试 次 数 。""" 
triesBeforeSuccess = [] 
for t in range(numTrials): 
consecFailures = 0 
while random.random() > successProb: 
consecFailures += 1 
triesBeforeSuccess.append(consecFailures) 
return triesBeforeSuccess 





probofSuccess = 8.5 
numTrials = 5666 
distribution = successfulStarts(probOofSuccess，numTrials) 
pylab.hist(distribution, bins = 14) 
pylab.xlabel('Tries Before Success ' ) 
pylab.ylabel('Number of Occurrences Out of ' + str(numTrials)) 
pylab.title('Probability of Starting Each Try = '"\ 
+ str(probofSuccess)) 











图 15-29 ”生成 几何 分 布 











在 0.5 成 功率 的 情况 下 成 功 启动 的 概率 








4 6 BE 1 
成 功 之 前 需要 尝试 的 次 数 


图 15-30 ”几何 分 布 
从 直方 图 可 以 看 出 ,多 数 情况 下 你 都 可 以 尝试 很 少 的 几 次 就 能 启动 汽车 。 但 是, 图 形 中 的 长 
尾 说 明 ， 有 时 候 你 也 可 能 耗 尽 电池 也 无 法 启动 汽车 。 
15.4.6 ”本 福 德 分 布 


本 福 德 定律 定义 了 一 种 十 分 奇怪 的 分 布 。 令 5 是 一 个 大 的 十 进 制 数 集合 , 那么 每 个 非 0 数字 出 
现 的 第 一 位 的 概率 是 多 少 ? 大 多 数 人 会 认为 应 该 是 9。 在 人 造 入 数据 集中 如 伪造 告 实验 数据 或 者 
进行 金融 欺诈 )， 这 个 想法 通常 是 对 的 。 但 在 自然 产生 的 数据 集中 ， 这 个 想法 一 般 是 错 的 ， 它 们 
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服从 一 种 由 本 福 德 定律 预测 的 分 布 。 
对 于 一 个 十 进 制 数 的 集合 ， 如 果 第 一 位 数字 是 4 的 概率 符合 P(4) = 1ogio(1 + 1/4d)， 就 称 它 满足 
本 福 德 定律 "。 
举例 来 说 ， 根 据 这 个 定律 ， 首 位 数字 是 1 的 概率 大 约 有 30%1! 令 人 震惊 的 是 ， 很 多 实际 数据 集 
都 符合 这 个 定律 。 例 如 ， 斐 波 那 契 数列 就 完美 满足 这 个 定律 。 这 还 情 有 可 原 ， 因 为 斐 波 那 契 数列 是 
由 公式 生成 的 。 但 更 加 令 人 难以 理解 的 是 ， 像 Phone 密码 、Twitter 用 户 的 关注 者 数量 、 每 个 国家 的 
人 口 以 及 星星 与 地 球 之 间 的 距离 等 各 式 各 样 的 数据 集 ， 也 都 非常 近似 地 符合 本 福 德 定律 。” 


15.5 ” 散 列 与 碰撞 


在 10.3 节 中 我 们 曾经 指出 ,使 用 更 大 的 散 列 表 可 以 减少 碰撞 的 可 能 性 ， 从 而 减少 检索 一 个 值 
的 预期 时 间 。 现 在 我 们 可 以 使 用 更 加 智能 的 工具 来 对 这 种 取舍 进行 更 精确 的 研究 。 
首先 ， 我们 对 这 个 问题 进行 更 为 精确 的 描述 。 
口 假设 : 
@ 散 列表 的 范围 是 1~n， 
要 执行 K 次 插入 操作 ， 
@ 散 列 函数 为 插入 操作 中 使 用 的 键 生成 一 个 完美 的 均匀 分 布 ， 也 就 是 说 ， 对 于 所 有 的 键 
key 和 1~n 中 的 所 有 整数 :，hash(key) = i 的 概率 都 是 1/n。 
口 那么 ， 至 少 发 生 一 次 碰撞 的 概率 是 多 少 ? 
这 个 问题 完全 等 价 于 :“ 在 1~n 的 范围 内 随机 生成 K 个 整数 ， 至 少 有 两 个 整数 相等 的 概率 是 多 
少 ? ”如 果 K 宇 n， 那 么 概率 显然 为 1， 但 如 果 K <n 呢 ? 
一 般 来 说 , 解决 这 个 问题 的 最 容易 的 方式 是 找到 相反 情况 的 答案 :“ 在 1~n 的 范围 内 随机 生成 
K 个 整数 ， 所 有 整数 都 不 相等 的 概率 是 多 少 ? ” 
插入 第 一 个 元 素 时 ， 不 发 生 碰撞 的 概率 显然 是 1。 那 么 第 二 次 插入 呢 ?” 因 为 还 有 n - 1 种 散 列 
结果 不 等 于 第 一 次 中 的 散 列 结果 ，n 种 选择 中 的 n - 1 种 不 会 发 生 碰撞 ， 所 以 第 二 次 插入 时 不 会 发 
生 碰 撞 的 概率 是 (n -1)n， 于 是 ， 前 两 次 插入 时 不 发 生 碰 撞 的 概率 就 是 1x(n 一 1)/n。 因 为 在 每 次 插 
入 操作 时 ， 散 列 函数 的 值 都 与 前 面 的 操作 无 关 ， 所 以 我 们 可 以 将 这 两 个 概率 相 乘 。 
前 三 次 插入 时 不 发 生 碰撞 的 概率 就 是 1 x (n - Djn x (n -2)n， 在 第 K 次 插入 结束 后 ， 不 发 生 
六 撞 的 概率 就 是 1 x (n 一 1/n x (n-2)nx… xn-(K- 1)/no 
要 得 到 至 少 发 生 一 次 碰撞 的 概率 ， 我 们 应 该 用 1 减 去 这 个 值 ， 也 就 是 说 ， 这 个 概率 为 : 
,2 一 ( 开 一 了 
n 
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给 定 散 列表 的 大 小 和 预期 的 插入 次 数 之 后 ， 我 们 可 以 使 用 这 个 公式 计算 至 少 发 生 1 次 碰撞 的 














@ 这 条 定律 以 物理 学 家 弗兰克 … 本 福 德 的 名 字 命 名 ， 他 在 1938 年 发 表 了 一 篇 论文 ， 说 明 在 20 个 不 同 领域 中 提取 出 
的 20 000 条 观测 数据 都 符合 这 个 定律 。 但 这 条 定律 却 是 1881 年 由 天 文学 家 西蒙 ' 纽 康 最 先 提出 的 。 
© http://testingbenfordslaw.com/ 
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概率 。 如 果 K 相 当 大 ， 比 如 10 000, 那么 用 笔 和 纸 计算 这 个 概率 就 太 无 聊 了 。 我们 只 有 两 种 选择 : 
数学 和 编程 。 数 学 家 会 使 用 一 些 相 当 高 级 的 技术 来 估算 这 个 算式 的 近似 值 。 但 除非 K 特 别 大 ， 否 
则 运行 代码 算出 精确 值 会 更 加 容易 : 


def collisionprob(n, k): 
prob = 1.6 
for i in range(1, k): 
prob = prob * ((n - i)/n) 
return 1 - prob 


试 着 计算 一 下 collisionpProb(1666，56) ， 那 么 至 少 发 生 1 次 碰撞 的 概率 是 0.71。 如 果 想 进 
行 200 次 插入 操作 , 那么 发 生 碰撞 的 概率 差不多 就 是 1。 这 个 概率 是 不 是 有 点 高 ? 编写 一 个 模拟 模 
型 ， 佑 算 至 少 发 生 1 次 碰撞 的 概率 ， 看 看 是 否 会 得 到 同样 的 结果 ， 如 图 1$-31 所 示 。 































































































def simInsertions(numIndices, numInsertions): 
"" "假设 numIndices 和 numInsertions 为 正 整 数 , 

如 果 发 生 碰 撞 ， 则 返回 1， 否 则 返回 8。""" 
choices = range(numIndices) #1ist of possible indices 
used = [] 
for i in range(numInsertions): 

hashVal = random.choice(choices) 
if hashVal in used: #there is a collision 
return 1 
else: 
used.append(hashVal) 
return 6 


def findProb(numIndices, numInsertions, numTrials): 
collisions = 6 
for t in range(numTrials): 
collisions += simInsertions(numIndices, numInsertions) 
return collisions/numTrials 











图 15-31 ”模拟 散 列 表 
运行 以 下 代码 : 
print('Actual probability of a collision =', collisionpProb(16606, 50)) 
print('Est. probability of a collision =', findProb(16606, 506, 166860)) 


print('Actual probability of a collision =', collisionpProb(16606, 2060)) 
print('Est. probability of a collision ='，findProb(1666，266，16666) ) 


会 输出 : 


Actual probability of a collision = 6.7122686568799875 
Est. probability of a collision = 6.7697 

Actual probability of a collision = 8.9999999994781328 
Est. probability of a collision = 1.6 


令 人 欣慰 的 是 ， 模 拟 的 结果 与 我 们 分 析 推 导 的 结果 非常 接近 。 
这 种 碰撞 的 高 概率 是 否 意味 着 散 列 表 要 非常 巨大 才能 有 实用 价值 ? 不 。 至 少 发 生 1 次 碰撞 的 
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概率 和 预期 查找 时 间 没 有 什么 关系 。 发 生 碰 撞 的 值 都 保存 在 散 列 桶 中 ， 散 列 桶 是 用 列表 实现 的 ， 





查找 一 个 值 的 预 




















长 度 也 就 是 插入 操作 的 次 数 除 以 散 列 桶 的 数量 。 
15.6“ 强 队 的 获胜 概率 


几乎 每 年 10 月 , 来 自 美国 职业 棒球 大 联盟 的 两 支队 伍 都 会 在 世界 | 





期 时 间 依 赖 于 这 些 列表 的 平均 长 度 。 假 设 散 列 值 服从 均匀 分 布 , 那么 列表 的 平均 


职业 棒球 大 赛 中 相遇 。 他 们 


相互 对 垒 ， 直 到 一 支队 伍 先 获得 4 场 胜利 ， 获 胜 的 队伍 被 称 为 〈 并 不 完全 准确 ) “世界 冠军 "。 
我 们 是 否 有 理由 相信 ,参加 世界 职业 棒球 大 赛 的 某 支 队伍 真 的 是 世界 上 最 好 的 球 队 ” 先 把 这 个 
问题 放 到 一 边 ， 考 虑 另 一 个 问题 ， 一 项 最 多 进行 7 场 的 比赛 有 多 大 的 可 能 性 决定 哪 一 支队 伍 更 好 ? 


很 明显 ， 每 年 都 有 一 支队 伍 最 终 夺冠 。 那 么 问题 来 了 ， 最 终 夺 冠 任 的 是 运气 还 
1$-32 中 的 代码 可 以 使 我 们 对 这 个 问题 有 更 深 的 到 
个 正 整 数 , 表示 这 种 七 局 四 朋 


率 与 单 场 获 胜 概率 之 间 的 关系 。 强 队 单 场 获胜 的 概率 在 0.5~1.0 变 化 ， 最 后 生成 的 图 


所 示 。 















































def 


def 


def 





playSeries(numGames，teamProb ) : 
numWon = 6 
for game in range(numGames): 
if random.random() “= teamProb : 
numWon += 1 
return (numWon > numGames//2) 


fractionWon(teamProb, numSeries, seriesLen): 
won = 6 
for series in range(numSeries): 
if playSeries(seriesLen, teampProb): 
won += 1 
return won/float(numSeries) 


simSeries(numSeries): 
prob = 6.5 
fracsWon, probs = [], [] 
while prob <= 1.6: 
fracsWon.append(fractionWon(prob, numSeries, 7)) 
probs.append(prob) 
prob += 868.61 
pylab.axhline(8.95) #Draw line at 95% 
pylab.plot(probs, fracsWon, 'k', linewidth = 5) 
pylab.xlabel('Probability of Winning a Game') 
pylab.ylabel('Probability of Winning a Series') 
pylab.title(str(numSeries) + ' Seven-Game Series') 


simSeries(466) 


是 能 力 呢 ? 
8 解 。 滑 数 simseries 有 1 个 参数 ， 它 是 一 
E 制 的 比赛 的 模拟 次 数 。 它 绘制 出 了 强 队 在 这 种 系列 比赛 中 获胜 的 概 


形 如 图 15-33 








图 15-32 ”世界 职业 棒球 大 赛 模 拟 
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图 15-33 ”七 局 四 胜 制 比赛 的 获胜 概率 
请 注意 ， 如 果 更 好 的 球 队 想 要 达到 95% 的 获胜 概率 ( Y 轴 的 值 为 0.95 )， 那 么 在 两 支队 伍 的 直 


接 交 锋 中 ， 至 少 要 每 4 场 胜 出 3 场 。 可 以 比较 一 下 , 在 2015 年 世界 职业 棒球 大 赛 中 ,最终 两 支队 伍 
在 常规 赛 中 的 胜率 分 别 是 58.6%( 堪萨斯 皇家 队 ) 和 55.5% ( 纽约 大 都 会 队 )。 




















壹 特 卡 罗 模 拟 








在 第 14 章 和 第 15 章 中 , 我 们 介绍 了 在 计算 中 使 用 随机 性 的 不 同方 法 , 其 中 很 多 例子 都 可 以 归 








结 为 蒙特 卡 罗 模拟 。 蒙 特 卡 罗 模 拟 用 于 求 事件 的 近似 概率 ， 它 多 次 执行 同一 模拟 ,然后 将 结果 进 
行 平均 。 




















1949 年 ,斯 塔 尼 斯 拉夫 乌拉 姆 和 尼古拉斯 ， 梅 特 罗 波 利 斯 创造 了 “蒙特 卡 罗 模 拟 ” 这 个 名 
词 , 目的 是 向 摩纳哥 公国 赌场 中 的 赌 运气 游戏 致敬 。 乌 拉 姆 最 著名 的 事迹 是 和 爱德华 特 勒 一 起 
设计 了 氢弹 ， 他 对 这 个 模型 的 发 明 过 程 描述 如 下 : 


我 对 实现 蒙特 卡 罗 方 法 的 最 初 想 法 和 努力 来 源 于 一 个 问题 , 这 个 问题 在 1946 年 突然 
出 现在 我 的 脑海 中 。 当 时 我 处 于 病 后 康复 期 ， 正 在 玩 单 人 纸牌 。 这 个 问题 就 是 ， 使 用 52 
张 纸 牌 的 甘 菲 德 游戏 最 后 成 功 的 机 会 有 多 少 ? 我 花费 了 很 多 时 间 , 通过 纯 组 合 运算 来 估 
计 这 个 成 功 机 会 。 我 想 知道 是 否 有 一 种 比 “ 抽 象 思考 ”更 实际 的 方法 ， 可 能 不 止 要 将 纸 
牌 摆 100 次 ， 然 后 再 简单 地 观察 一 下 ， 数 出 成 功 的 次 数 就 可 以 了 。 随 着 高 速 计算 机 "新 时 
代 的 到 来 ， 我 们 完全 可 以 做 这 种 设想 。 我 又 马上 想到 了 中 子 扩散 等 其 他 数学 物理 问题 ， 
一 般 地 说 ， 就 是 对 于 由 某 种 差分 方程 描述 的 过 程 ， 我 们 如 何 将 其 转换 为 可 以 由 一 系列 随 
机 操作 解释 的 等 价 形式 。 之 后 .…… 1946 年 ， 我 向 约翰 .' 冯 ，… 诺 依 曼 描 述 了 这 个 想法 ， 然 
后 我 们 就 开始 计划 实际 的 计算 了 。” 


这 项 技术 在 曼哈顿 计划 中 用 于 预测 原子 核 裂 变 反 应 的 结果 , 但 是 直到 20 世 纪 50 年 代 , 计算 机 
更 加 普及 和 强大 之 后 ， 这 个 方法 才 真 正 取 得 了 成 功 。 

乌拉 姆 不 是 第 一 个 想 使 用 概率 工具 来 理解 赌 运气 游戏 的 数学 家 。 概率 的 历史 与 赌博 的 历史 紧 
密 相连 。 不 确定 性 的 存在 使 赌博 成 为 可 能 ,赌博 的 存在 又 促进 了 用 来 解释 不 确定 性 的 数学 理论 的 
发 展 。 为 概率 论 的 黄 基 做 出 重要 贡献 的 有 卡尔 达 诺 、 帕 斯 卡 、 费 马 、 伯 努 利 、 棣 莫 弗 和 拉 普 拉 斯 ， 
他 们 的 目的 都 是 为 了 更 好 地 理解 ( 也 可 能 是 启 得 ) 财运 气 游戏 。 

































































@ 乌拉 姆 可 能 指 的 是 ENIAC， 它 每 秒 钟 可 以 执行 10 次 加 法 运算 ( 重 约 25 吨 )。 现 在 的 计算 机 每 秒 钟 可 以 执行 10? 次 加 
© Eckhardt, Roger(1987). Stan Ulam, John von Neumann, and the Monte Carlo method, Los Alamos Science, Special 
Issue(15), 131-137. 
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16.1 帕斯卡 的 问题 


概率 论 早期 的 多 数 工作 都 围绕 着 骨 子 游戏 "展开 。 据 说 ， 帕 斯 卡 对 概率 论 这 个 领域 产生 兴趣 

是 因为 他 的 朋友 问 了 他 一 个 问题 ， 即 “连续 掷 一 对 蜗 子 24 次 得 到 两 个 6” 这 个 赌注 是 否 有 利 可 图 。 

这 在 17 世 纪 中 叶 是 非常 困难 的 一 个 问题 。 帕斯卡 和 费 马 这 两 个 天 资 过 人 的 家 伙 经 过 多 次 通信 来 讨 

论 如 何 解 决 这 个 问题 ,但 是 现在 来 看 很 容易 解决 : 

口 第 一 次 投 找 时 ， 每 个 骨 子 毛 出 6 的 概率 是 /6， 所 以 两 个 骨 子 都 毛 出 6 的 概率 是 1/36; 

口 因此 ， 第 一 次 投掷 时 没有 掷 出 两 个 6 的 概率 是 1 - 1/36 = 35/36; 

D 因此 ， 连 续 24 次 投掷 都 没有 掷 出 两 个 6 的 概率 是 (33/36)”“， 差 不 多 是 0.531， 所 以 掷 出 两 个 6 
的 概率 是 1 - (35/36)“， 大 约 是 0.49。 长 期 来 看 ， 在 24 次 投掷 中 掷 出 两 个 6 这 个 赌注 是 无 利 
可 图 的 。 

为 安全 起 见 , 我 们 编写 一 个 小 程序 来 模拟 帕斯卡 这 位 朋友 的 游戏 , 确定 是 和 否 可 以 得 到 和 帕 斯 

卡 同样 的 结论 ， 如 图 16-1 所 示 。 当 我 们 第 一 次 运行 checkPascal(168688666) 时 ， 它 会 输出 : 

Probability of winning = 6.496761 
这 个 结果 与 1 - (35/36)* 非 常 接 近 ， 在 Python shell 中 输入 1 - (35/36)**24 会 计算 出 
60.49146387613696342。 
























































































































































def rollDie(): 
return random.choice([1,2,3,4,5,6]) 


def checkPascal(numTrials) : 
"" "假设 numTrials 是 正 整数 
输出 获胜 概率 的 估 值 """ 
numwins = 6 
for i in range(numTrials): 
for j in range(24): 
d1 = rollDie() 
d2 = rollDie() 
if d1 == 6 and d2 == 6: 
numWins += 1 
break 
print('Probability of winning ="', numWins/numTrials) 




















图 16-1 验证 帕斯卡 的 分 析 


















































Q 考古 挖掘 表 明 ， 骨 子 是 人 类 最 古老 的 赌博 用 具 。 已 知 最 早 的 “现代 ”六 面 骨 子 出 现在 公元 前 600 年 左右 ,但 是 在 
埃及 十 墓 中 发 现 了 公元 前 2000 年 左右 的 类 似 骨 子 的 工艺 品 。 这 些 早期 的 山 子 一 般 是 用 野兽 骨头 制作 而 成 的 ,在 财 
博 圈 中 ， 人 们 还 会 使 用 “ 掷 骨 头 ”这 个 术语 。 
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16.2 ”过 线 还 是 


是 不 过 线 





有 些 赌 运气 游戏 的 问题 是 很 难 找到 答案 的 。 在 双 蜗 儿 赌博 中 , 掷 手 〈 即 掷 贷 子 的 人 ) 可 以 选 


择 在 “过 线 ” 或 “不 过 线 ” 之 间 投 注 。 
D 过 线 : 如 果 初 搓 是 “自然 点 ”( 7 或 11 )， 那 么 掷 手 获胜 
12 )， 那 么 挪 手 失败 。 如 果 指出 其 他 数字 ， 这 个 数字 就 成 为 “点 数 ”， 






































如 果 掷 手 在 掷 出 7 之 前 掷 出 这 个 点 数 ， 那 么 掷 手 获胜 ， 否 则 掷 手 失败 。 
口 不 过 线 : 如 果 初 掷 是 7 或 11， 那 么 括 手 失败 ; 如 果 初 掷 是 2 或 3 ， 那 么 掷 手 获胜 ; 如 果 初 掷 





是 12, 则 是 平局 ( 赌博 的 行 
掷 手 继续 掷 如 子 。 如 果 掷 手 在 掷 出 这 个 点 数 之 前 掷 出 7， 那 么 掷 手 获胜 ， 
是 否 有 一 种 赌注 


















































FE 比 男 一 种 更 好 呢 ? 还 是 说 二 者 都 一 样 ? 通过 分 析 推 





Tr 


导 可 以 





E ;如果 初 搓 是 “垃圾 点 ”(2、3 或 
搓 手 继续 掷 蜗 子 。 





话 称 为 push )。 如 果 掷 出 其 他 数字 , 那么 这 个 数字 成 为 “点 数 ”， 





否则 掷 手 失败 。 





回答 这 些 问题 , 但 


至 少 对 我 们 来 说 ) 编写 一 个 程序 的 方式 会 更 容易 。 模 拟 一 个 双 骨 儿 游戏 的 过 程 ， 然 后 看 看 结果 。 
0 
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ss CrapsGame(object): 

def _ init (self): 
self.passWins, self.passLosses = 0, 0 
self.dpWins, self.dpLosses, self.dpPushes = 


def playHand(self): 
throw = rollDie() + rollDie() 
if throw == 7 or throw == 11: 
self.passWins += 1 
self.dpLosses += 1 
elif throw == 2 or throw == 3 or throw == 12: 
self.passLosses += 1 
if throw == 12: 
self.dpPushes += 1 
else: 
self.dpWins += 1 
else: 
point = throw 
while True: 
throw = rollDie() + rollDie() 
if throw == point: 
self.passWins += 1 
self.dpLosses += 1 
break 
elif throw == 7: 
self.passLosses += 1 
self.dpWins += 1 
break 


def passResults(self): 
return (self.passWins, self.passLosses) 


def dpResults(self): 
return (self.dpWins, self.dpLosses, self.dpPpu 


0, 60, 0 


shes) 








图 16-2 ”CrapsGame 类 
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CrapsGame 类 的 实例 变量 会 记录 游戏 开始 后 过 线 和 不 过 线 的 情况 。 观 察 者 方法 passResult 和 
dpResults 可 以 返回 两 种 选择 中 胜利 、 失 败 或 平局 的 次 数 。playHand 方 法 可 以 模拟 一 手 游戏 ， 当 
掷 手 搓 出 “出 场 掷 ” 时 ， 就 开始 新 的 一 “ 手 ”， 在 双 般 儿 游 戏 中 ,“ 出 场 掷 ” 是 指点 数 出 现 之 前 的 
那 次 投掷 。 当 掷 手 赢得 或 输 掉 自己 的 初始 赌注 时 ， 一 手 结束 。playHand 方 法 中 的 主体 代码 就 是 
对 上 述 规则 的 算法 描述 。 请 注意 ，else 从 名 中 有 一 个 循环 ， 对 应 出 现 点 数 的 情况 。 当 掷 出 7 或 者 
点 数 的 时 候 ， 使 用 bread 语 句 跳 出 循环 。 

图 16-3 中 的 函数 使 用 CrapsGame 类 模拟 一 系列 双 蜗 儿 游 戏 。 














def crapsSim(handsPerGame, numGames): 
"" 假 设 handsPerGame 和 numGames 是 正 整 数 
玩 numGames 交 游戏， 每 次 handsPerGame 手 ; 输出 结果 。""" 
games = [] 





# 玩 numGames 次 游戏 
for t in range(numGames): 
c = CrapsGame() 
for i in range(handsPerGame ) : 
c.playHand() 
games .append(c) 


# 为 每 次 游戏 生成 统计 量 

pROIPerGame, dpROIPerGame = []，[] 

for g in games: 
wins, losses = g.passResults() 
pROIPerGame.append((wins - losses)/float(handsPerGame)) 
wins, losses, pushes = g.dpResults() 
dpROIPerGame.append((wins - losses)/float(handsPerGame)) 


# 生 成 并 输出 摘要 统计 量 

meanROI = str(round((166*sum(PROIPerGame)VnumGames)，4)) + '%" 
sigma = str(round(166*stdDev(PROIPerGame)，4)) + '%' 
print('Pass:', 'Mean ROI =', meanROI, 'Std. Dev. =', sigma) 
meanROI = str(round((1660*sum(dpROIPerGame)/numGames), 4)) +'%" 
sigma = str(round(166*stdDev(dpROIPerGame), 4)) + '%' 
print('Don\'t pass:','Mean ROI =', meanROI, 'Std Dev =', sigma) 











图 16-3 ”模拟 双 山 儿 游 戏 


crapsSim 的 结构 与 很 多 典型 的 模拟 程序 一 样 : 

(1) 运行 多 次 游戏 ( 可 以 将 一 次 游戏 看 作 前 面 模拟 中 的 一 次 实验 )， 然 后 将 结果 累加 。 每 次 游 
戏 都 包括 很 多 手 ， 所 以 需要 一 个 垦 套 循环 ; 

(2) 为 每 次 游戏 生成 统计 量 并 保存 ; 

(3) 最后, 生成 并 输出 摘要 统计 。 在 本 例 中 , 它 输 出 每 种 赌注 的 投资 回报 率 ( ROI ) 的 期 望 值 ， 
以 及 ROI 的 标准 差 。 
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投资 回报 率 由 以 下 公式 定义 ": 
投资 收益 -投资 成 本 

投资 成 本 

因为 过 线 投注 和 不 过 线 投注 赢得 的 钱 都 是 一 样 的 (如果 你 投注 1 美元 并 且 获 胜 ， 你 的 收益 就 
是 1 美元 )， 所 以 ROI 就 是 : 


ROI = 


















































= 获胜 次 数 一 失败 次 数 
投注 次 数 
举例 来 说 ， 如 果 你 对 过 线 投注 100 次 ， 并 且 获 胜 50 次 ， 那么 你 的 ROI 就 是 : 
50-50 _1 
100 
如 果 你 对 不 过 线 投注 100 次 ， 并 且 获 胜 25 次 ,平局 5 次 ， 那 么 ROI 就 应 该 是 : 
2 0 二 
100 ”100 


下 面 我 们 运行 对 双 货 儿 游戏 的 模拟 ， 看 看 crapssim(286，16) 的 结果 如 何 ”: 


Pass: Mean ROI = -7.6% Std. Dev. = 23.6854% 
Don't pass: Mean ROI = 4.6% Std Dev = 23.5372% 


看 上 去 过 线 投注 不 是 个 好 主意 ， 因 为 过 线 投注 的 期 望 投资 回报 率 是 -7%。 但 是 不 过 线 投注 似乎 不 
错 ， 真 有 这 样 的 好 事 ? 

再 看 看 标准 差 ， 可 以 看 出 不 过 线 投注 根本 不 是 一 个 好 的 选择 。 回 忆 一 下 , 在 正 态 分 布 的 假设 
之 下 ，95% 的 置信 区 间 是 均值 两 侧 1.96 个 标准 差 的 范围 。 对 于 不 过 线 投注 ， 它 的 95% 置 信 区 间 就 
是 [4.0-1.96*23.5372, 4.0+1.96*23.5372]， 大 约 是 [-43%, +51%]。 这 显然 说 明 ， 不 过 线 投注 的 结 
是 完全 不 确定 的 。 
现在 是 大 数 定律 发 挥 作 用 的 时 候 了 ，crapssim(18868686，16) 会 输出 以 下 结 


Pass: Mean ROI = -1.4264% Std. Dev. = 86.6614% 
Don't pass: Mean ROI = -1.3571% Std Dev = 8.6593% 


现在 我 们 完全 可 以 得 出 结论 ， 这 两 个 选择 都 不 好 。 看 上 去 似乎 不 过 线 的 投注 稍 好 一 点 ， 但 
我 们 完全 不 能 指望 靠 它 来 挣 馈 。 如 果 过 线 投注 和 不 过 线 投注 的 95% 和 置信 区 间 没 有 重合 ， 就 可 以 认 








































































































更 精确 地 说 ， 这 个 公式 定义 的 是 “简单 ROI”， 它 不 考虑 投资 开始 时 和 取得 回报 时 的 时 间 价 值 方面 的 差异 。 当 进行 
投资 和 看 到 财务 上 的 收益 之 间 的 时 间 非 常 长 的 时 候 ( 例如， 在 大 学 教育 上 的 投资 )， 应 该 考虑 时 间 价值 。 对 于 双 
骨 儿 游戏 来 说 ， 这 不 是 什么 问题 。 

加 因为 这 些 程序 包含 了 随机 性 ， 所 以 你 自己 运行 这 些 代码 时 ， 不 要 希望 会 获得 和 书 中 同样 的 结果 。 更 重要 的 是 ， 完 

成 对 本 节 的 学 习 之 前 ， 千 万 不 要 进行 任何 赌博 活动 。 

图 事实 上 ， 这 两 个 估计 出 的 ROI 均 值 与 实际 的 ROI 非 常 接近 。 通 过 概率 计算 出 的 过 线 ROI 为 -1.4149%6， 不 过 线 ROI 为 

一 1.3649%。 
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为 这 两 个 均值 之 间 的 差异 在 统计 上 是 显著 的 。 "但 是 它们 重合 了 ， 所 以 我 们 不 能 得 出 任何 确定 的 
结论 。 
假设 不 增加 每 次 游戏 的 手数 ， 而 是 增加 游戏 次 数 ， 例 如 ,调用 函数 crapssim(28,1868668) : 


Pass: Mean ROI = -1.4133% Std. Dev. = 22.3571% 
Don't pass: Mean ROI = -1.3649% Std Dev = 22.060446% 


标准 差 还 是 很 高 ， 这 说 明 一 次 20 手 的 游戏 结果 是 高 度 不 确定 的 。 

模拟 的 一 个 优点 是 可 以 很 容易 地 进行 “如 果 …… 那 么 ……” 实 验 。 例 如 ,如果 玩家 可 以 偷偷 
地 使 用 一 对 做 了 次 的 骨 子 , 这 种 角 子 出 现 5 的 概率 要 大 于 出 现 2 的 概率 (5 和 2 分 别 在 山 子 两 个 相对 
的 面 上 )， 那 会 怎么 样 呢 ?为 了 测试 这 种 情况 ， 我 们 只 需 将 rol1Die 的 实现 蔡 换 为 以 下 代码 : 

def rollDie(): 

return random.choice([1,1,2,3,3,4,4,5,5,5,6,6]) 

这 种 奶子 的 微小 改变 会 使 获胜 的 几率 发 生 戏 剧 性 的 变化 。 运 行 crapssim(1688866，16) 会 得 到 以 
下 结果 : 


Pass: Mean ROI = 6.7385% Std. Dev. = 8.13% 
Don't pass: Mean ROI = -9.5186% Std Dev = 0.1226% 


怪不得 赌场 要 费 尽心 机 地 确定 玩家 在 游戏 中 没有 使 用 他 们 自 带 的 散 子 ! 


16.3 ”使 用 查 表 法 提高 性 能 


你 可 能 不 会 想 在 家 里 运行 crapssim(168866868，16) ， 对 于 大 多 数 计算 机 来 说 ， 等 待 这 个 程 
序 结束 的 时 间 太 长 了 。 这 就 提出 了 一 个 问题 : 是否 有 简单 的 方法 可 以 加 速 这 种 模拟 ? 

crapsSim 的 复杂 度 为 O(playHand)*hansPerGame*numGames。playHand 的 运行 时 间 依 赖 于 其 
中 循环 执行 的 次 数 。 理 论 上 ， 这 个 循环 可 以 执行 无 限 次 ， 因 为 掷 出 7 或 者 点 数 的 时 间 是 没有 限制 
的 。 实 际 上 ， 我 们 当然 有 各 种 理由 相信 这 个 循环 肯定 会 停止 。 

但 请 注意 ，playHand 的 结果 与 循环 执行 的 次 数 没 有 关系 ， 只 与 跳出 循环 的 条 件 有 关 。 对 于 
每 个 可 能 的 点 数 ， 我 们 可 以 很 容易 地 计算 出 掷 出 7 之 前 掷 出 这 个 点 数 的 概率 。 例 如 ， 用 一 对 货 子 
可 以 有 3 种 不 同方 式 掷 出 4: <1，3>、<3，1> 和 <2，2>; 有 6 种 不 同方 式 可 以 掷 出 7: <1，6> 、<6， 
1>、<2，5>、<5，2> 、<3，4> 和 <4，3>。 因 此 ， 通 过 掷 出 7 跳出 循环 的 可 能 性 就 是 通过 掷 出 4 中 
出 循环 的 可 能 性 的 两 倍 。 

图 16-4 中 playHand 的 另 一 种 实现 就 利用 了 这 种 想法 。 对 于 每 个 可 能 出 现 的 点 数 , 我 们 先 计算 
出 搓 出 7 之 前 掷 出 这 个 点 数 的 概率 ， 然 后 将 这 些 值 保 存在 一 个 字典 中 。 例 如 ， 假 设 这 个 点 数 是 8， 
掷 手 会 不 断 地 掷 观 子 ， 直 到 掷 出 这 个 点 数 或 者 搓 出 7。 有 5 种 方式 可 以 掷 出 8 (<6，2>、<2，6>、 
<3，5>、<5，3> 和 <4，4> )， 有 6 种 方式 可 以 掷 出 7， 所 以 字典 中 键 为 8 的 值 就 是 表达 式 S/11 的 值 。 
有 了 这 个 表 ， 我 们 就 可 以 将 可 能 有 无 限 次 投掷 的 内 层 循环 替换 为 对 random.random 的 一 次 测试 。 

















































































































Q@ 我 们 会 在 第 19 音 更 加 详细 地 讨论 统计 显著 性 。 
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这 个 版 本 的 playHand 的 渐 近 复杂 度 是 O()。 





def playHand(self): 
"""playHand 汤 数 的 另外 一 种 更 快 的 实现 方式 
pointsDict = {4:1/3, 5:2/5, 6:5/11, 8:5/11, 
throw = rollDie() + rollDie() 
if throw == 7 or throw == 11: 
self.passWins += 1 
self.dpLosses += 1 


self.passLosses += 1 
if throw == 12: 
self.dpPushes += 1 
else: 
self.dpWins += 1 
else: 


self.passWins += 1 

self.dpLosses += 1 
else: 

self.passLosses += 1 

self.dpWins += 1 





elif throw == 2 or throw == 3 or throw == 12: 


if random.random() <= pointsDict[throw]: # 在 挪 出 7 之 前 挪 出 点 数 


9:2/5，106:1/3} 


# 在 掷 出 点 数 之 前 搓 出 7 

















图 16-4 ”使 用 查 表 法 提高 











LA 
CBE 


使 用 查 表 法 替代 计算 的 这 种 思想 用 途 十 分 广泛 。 性 能 出 现 问题 时 ， 经 常会 采用 这 种 方法 。 碍 
表 法 是 以 空间 换 时 间 这 种 通用 思想 的 一 个 典型 例子 , 正如 我 们 在 第 13 章 中 看 到 的 , 这 种 思想 是 动 

















态 规划 背后 的 核心 思想 。 在 对 散 列 表 的 分 析 中 ,我 们 还 看 至 





1 了 这 种 思想 的 另外 一 个 例子 : 散 列表 


越 大 ， 碰 撞 就 越 少 ,平均 查找 时 间 就 越 少 。 在 本 例 中 ， 表 非常 小 ， 所 以 空间 成 本 可 以 忽略 不 计 。 





16.4 求 z 的 值 








解决 不 确定 性 起 重要 作用 的 问题 时 ,蒙特 卡 罗 模 拟 的 月 


有 处 显而易见 。 有 趣 的 是 ,蒙特 卡 罗 模 





拟 (以 及 一 般 的 随机 算法 ) 也 可 以 用 于 解决 那些 本 质 上 不 随机 的 问题 ,也 就 是 说 , 这 些 问题 的 结 


果 并 不 存在 不 确定 性 。 
比如 r。 几 千年 来 ， 人们 早 就 知道 有 这 么 一 个 常数 (从 











7 的 最 早 估算 之 一 可 以 在 大 约 公 元 前 1650 年 的 古 埃 及 《 





18 址 纪 开 始 称 为 r)， 圆 的 周 长 等 于 rx 


直径 ， 圆 的 面积 等 于 r x 半径 ”。 但 是 人 们 不 知道 这 个 常数 的 确切 的 值 。 


莱 因 德 纸 草 书 》 中 找到 ， 即 4 x (8/9》 = 


3.16。 一 千 多 年 之 后 ,《 旧 约 全 书 》 记 述 所 风门 王 的 一 项 建筑 工程 时 ， 暗 示 了 一 个 不 同 的 r 值 : 








他 又 铸 一 个 铜 海 ， 样 式 是 圆 的 ， 高 五 有 时， 径 十 肘 ， 





@ 钦定 版 《圣经 》》《 列 王 纪 》 7.23。 


围 三 十 有 时。 ” 
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可 以 从 上 面 的 描述 中 解 出 r，10r=30， 所 以 rz=3。 可 能 是 《圣经 》 错 了 ， 也 可 能 这 个 铜 海 不 
是 一 个 完美 的 圆 , 也 可 能 周 长 是 从 外 面 测量 的 而 直径 是 从 里 面 测量 的 ,也 可 能 是 因为 诗歌 的 浪漫 ， 
我 们 把 它 留 给 读者 去 评判 吧 。 

令 拉 十 的 阿 基 米 德 (公元 前 287 一 公元 前 212 年 ) 使 用 具有 高 度 多边 形 近似 圆 形 的 方法 ,推导 
出 了 zt 值 的 上 界 和 下 界 。 他 使 用 96 边 形 ， 得 出 结论 223/71 < x < 22/7。 在 那个 年 代 ， 得 出 x 的 上 界 
和 下 界 需要 一 套 非常 深奥 的 方法 。 还 有 , 如 果 我 们 将 这 两 个 界限 平均 一 下 作为 阿 基 米 德 的 最 佳 佑 
计 ， 会 得 到 3.1418， 误 差 大 概 只 有 0.0002， 相 当 不 错 ! 

早 在 计算 机 发 明 以 前 ， 法 国 数学 家 布 汉 (1707 一 1788 ) 和 拉 普 拉 斯 (1749 一 1827 ) 提出 了 使 
用 随机 模拟 来 估算 r 值 的 方法 。" 假 设 要 在 一 个 边 长 为 2 的 正方 形 中 舱 一 个 圆 ,那么 这 个 圆 的 半径 r 
就 是 1 。 



































图 16-5 ”内在 正方 形 中 的 圆 


根据 x 的 定义 ， 面 积 = mw2。 因 为 /为 1， 所 以 r = 面积 。 但 是 圆 的 面积 是 多 少 呢 ? 布 治 认为 可 
以 估计 出 圆 的 面积 ,方法 是 向 正方 形 附加 扔 大 量 的 针 ( 他 宣称 针 是 按照 随机 路 径 下 落 的 )， 然 后 
找 出 针尖 落 在 正方 形 内 的 针 的 数量 , 再 找 出 针尖 落 在 圆 内 的 针 的 数量 , 用 二 者 的 比值 就 可 以 估计 
出 圆 的 面积 。 

如 果 针 的 位 置 确实 是 随机 的 ， 那 么 有 : 
加 内 针 的 数量 。 ”” 圆 的 面积 
正方 形 内 针 的 数量 ”正方形 的 面积 
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解 出 圆 的 面积 : 








正方 形 的 面积 * 贺 内 针 的 数量 
图 的 面积 = 一 直方 形 内 针 的 数量 

















也 | 
































2 x 2 的 正方 形 的 面积 为 4， 所 以 ; 
员 的 面积 ~_4 贺 内 针 的 数量 
” ”正方形 内 针 的 数量 



































g 布 汉 第 一 次 提出 了 这 个 想法 ,但 是 他 的 公式 中 有 个 错误 ， 之 后 由 拉 普 拉 斯 修正 。 
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一 般 来 说 ， 要 估计 某 个 区 域 R 的 面积 : 





(1) 选择 一 个 封闭 的 区 域 E，E 的 面积 很 容易 计算 ,并且 R 完 全 位 于 E 中 ; 





(2) 在 E 中 选择 一 组 随机 的 点 ; 
(3) 令 F 为 这 些 点 落 入 R 中 的 比率 ; 
(4) 用 F 乘 以 E 的 面积 。 








如 果 你 亲自 试验 了 布 冯 的 方法 ,很 快 就 会 发 现 针 落 地 的 位 置 不 是 真正 随机 的 。 而 且 ， 即 使 你 
可 以 随机 地 扔 针 ， 要 得 到 和 《和 圣经》 中 记述 的 一 样 好 的 r 的 近似 值 ， 也 需要 扔 大 量 的 针 。 幸 运 的 























是 ， 计 算 机 可 以 用 电光 火石 的 速度 随机 扔 出 大 量 模拟 的 针 。 





图 16-6 中 的 程序 可 以 使 用 布 冯 - 拉 普 拉 基 


方形 右上 1/4 面 积 中 的 针 。 





方法 估计 出 x 值 。 为 简单 起 见 , 它 只 考虑 那些 落 在 正 





inCircle = 6 





def 
estimates = [] 


curEst = 


def 
numNeedles = 1666 
sDev = precision 


return curEst 





def throwNeedles(numNeedles): 


for Needles in range(1, numNeedles + 1): 
x = random.random() 
y = random.random() 
if (x*x + y*y)**0.5 <= 1: 
inCircle += 1 
# 数 出 一 个 1/4 圆 中 的 针 数 ， 所 以 要 乘 以 4。 
return 3*(inCircle/numNeedles) 


getEst(numNeedles, numTrials): 


for t in range(numTrials): 
piGuess = throwNeedles(numNeedles) 
estimates.append(piGuess) 
sDev = stdDev(estimates) 
sum(estimates)/len(estimates) 
print('Est. =', str(round(curEst, 5)) + "' 
'Std. dev. =', str(round(sDev, 5)) + ',', 
"Needles =', numNeedles) 
return (curEst, sDev) 


estpi(precision, numTrials): 
while sDev > precision/1.96: 


curEst, sDev = getEst(numNeedles, numTrials) 
numNeedles *= 2 


' 
Ve 











图 16-6 ”估计 x 值 


函数 throwNeedles 模 拟 了 扔 针 的 过 程 。 首先 , 使 用 random.random 得 到 一 对 正 的 笛 卡 儿 坐 标 
值 (x 值 和 y 值 )， 表 示 相 对 于 正方 形 中 心 点 的 针 的 位 置 。 然 后 ,使 用 勾 股 定理 计算 出 底 为 x 高 为 y 
的 直角 三 角形 的 斜 边 的 长 度 ， 这 就 是 针尖 与 原点 (正方 形 中 心 点 ) 之 间 的 距离 。 因 为 圆 的 半径 是 
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1， 所 以 当 且 仅 当 针尖 与 原点 之 间 的 距离 不 大 于 1 时 , 针 才 落 在 圆 内 。 我 们 就 根据 这 个 事实 数 出 落 
在 圆 内 的 针 的 数量 。 

函数 getEst 使 用 throwNeedles 找 出 x 的 估计 值 。 首 先 扔 出 numNeedles 根 针 ， 然 后 取 
numTrials 次 实验 结果 的 平均 值 ， 最 后 返回 整个 实验 的 均值 和 标准 差 。 

函数 estPi 使 用 不 断 增加 的 针 的 数量 来 调用 getEst ， 直 到 getEst 返 回 的 标准 差 不 大 于 
precision/1.96。 基 于 误差 服从 正 态 分 布 的 假设 , 这 意味 着 95% 的 值 都 位 于 均值 两 侧 precision 
的 范围 内 。 

运行 estPi(6.61，166) ， 输 出 以 下 结 




















Est. = 3.14844, Std. dev. = 0.04789，Needles = 1666 
Est. = 3.13918, Std. dev. = 0.0355， Needles = 2666 
Est. = 3.14168，std. dev. = 0.02713，Needles = 4666 
Est. = 3.14143, Std. dev. = 0.0168， Needles = 8666 
Est. = 3.14135, Std. dev. = 0.0137， Needles = 16666 
Est. = 3.14131, Std. dev. = 0.06848，Needles = 32666 
Est. = 3.14117, Std. dev. = 0.06763，Needles = 64666 


Est. = 3.14159, Std. dev. = 8.0604063, Needles = 128666 

正如 我 们 所 料 ， 增 加 样本 数量 时 ， 标 准 差 是 单调 递减 的 。 开 始 时 ，x 的 估计 值 也 在 平稳 地 改 
善 ， 有 时 高 于 真实 值 ， 有 时 低 于 真实 值 ， 但 每 次 numNeedles 的 增加 都 会 改善 估计 值 。 当 每 次 实 
验 有 1000 个 样本 时 ， 这 个 模拟 的 估计 值 已 经 好 于 《圣经 》 和 《 莱 因 德 纸 草 书 》 中 的 rx 值 了 。 

奇怪 的 是 ， 当 针 数 从 8000 增 加 到 16 000 时 ， 估 计 值 变 差 了 ， 因 为 3.14135 比 3.14143 更 加 远离 
的 真实 值 。 但 是 ， 检 查 每 个 均值 两 侧 一 个 标准 差 的 范围 就 会 发 现 ， 每 个 范围 都 包含 x 的 真实 值 ， 
而 且 样本 规模 越 大 ， 这 个 范围 就 越 小 。 即 使 16 000 个 样本 产生 的 估计 值 偶然 离 真 实 值 更 远 ， 但 我 
们 却 对 它 的 精确 度 更 有 信心 。 这 是 非常 重要 的 概念 ,给 出 一 个 好 的 答案 是 不 够 的 , 还 必须 有 足够 
的 理由 来 确信 它 真是 个 好 的 答案 。 当 我 们 扔 出 足够 多 的 针 时 ,就 可 以 得 到 足够 小 的 标准 差 , 使 我 
们 有 理由 确信 答案 是 正确 的 。 不 是 吗 ? 

还 不 一 定 ， 足够 小 的 标准 差 只 是 确认 结果 有 效 性 的 必要 条 件 , 不 是 充分 条 件 。 统 计 上 有 效 的 
结论 和 正确 结论 是 两 个 概念 ， 不 能 混淆 。 

每 种 统计 分 析 的 开始 都 要 进行 假设 。 这 里 的 关键 假设 是 , 我 们 的 模型 是 对 现实 世界 的 精确 模 
拟 。 回 忆 一 下 ， 我 们 在 对 布 汉 - 拉 普 拉 斯 方法 的 模拟 中 ， 先 使 用 代数 方法 解释 了 如 何 使 用 两 个 面 
积 的 比值 来 计算 r 的 值 ， 然 后 依靠 一 点 几何 知识 ， 再 加 上 由 random.random 产 生 的 随机 性 ， 将 这 
种 方法 转换 成 了 代码 。 

我 们 再 看 看 如 果 模 拟 中 有 错误 会 怎样 。 例 如 ， 假 设 将 函数 throwNeedles 中 最 后 一 行 代码 中 
的 4 替换 为 2， 然 后 再 运行 estPi(8.61，166) 。 这 次 会 输出 以 下 结果 : 

















































































































Est. = 1.57422, Std. dev. = 0.02394，Needles = 1666 
Est. = 1.56959, Std. dev. = 86.061775, Needles = 2666 
Est. = 1.57654，Sstd. dev. = 68.061356, Needles = 4666 
Est. = 1.578672, Std. dev. = 8.66084, Needles = 8666 
Est. = 1.578668, Std. dev. = 68.660685, Needles = 16666 
Est. = 1.57866, Std. dev. = 0.60424, Needles = 32666 
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仅 用 了 32 000 根 针 ， 标 准 差 就 可 以 表明 我 们 对 估计 值 有 足够 的 信心 了 。 那 么 标准 差 真 正 意味 
着 什么 呢 ? 它 意味 着 我 们 有 理由 确信 , 即使 使 用 更 多 来 自 同一 分 布 的 样本 , 也 只 能 得 到 相似 的 结 
果 。 它 并 不 能 告诉 我 们 这 个 估计 值 是 否 接近 x 的 真实 值 。 关 于 统计 学 ， 如 果 你 只 能 记 住 一 件 事 ， 
那么 就 请 记 住 : 统计 上 有 效 的 结论 不 能 混淆 为 正确 的 结论 ! 

在 相信 模拟 结果 之 前 , 我 们 既 需 要 确信 概念 模型 是 正确 的 , 也 需要 确信 模型 的 实现 过 程 是 正 
确 的 。 只 要 有 可 能 ,我 们 就 应 该 用 事实 来 验证 模型 结果 。 在 本 例 中 ,我 们 可 以 通过 一 些 其 他 方式 
计算 出 圆 的 面积 的 近似 值 (例如 实际 测量 ), 并 通过 实测 值 检查 计算 出 的 r 值 是 否 至 少 在 正确 的 范 
围 内 。 


16.5 “模拟 模型 结束 语 


在 科学 发 展 的 大 部 分 时 间 中 , 理论 学 家 使 用 数学 技术 构建 纯 分 析 模 型 , 根据 一 组 参数 和 初始 
条 件 来 预测 系统 的 行为 ,并 由 此 发 展 出 了 很 多 重要 的 数学 工具 ， 从 微 积 分 到 概率 论 。 这 些 工 具 帮 
助 科学 家 对 微观 物质 世界 有 了 更 加 精确 的 认识 。 
进入 20 世 纪 ， 这 种 方法 的 局 限 性 越 来 越 明显 ， 原 因 如 下 : 



























































口 人 们 对 社会 科学 ( 如 经 济 学 ) 的 兴趣 不 断 增加 ， 需 要 对 不 容易 使 用 数学 处 理 的 系统 进行 
很 好 地 建 模 ; 

口 要 建 模 的 系统 越 来 越 复 杂 ， 相 对 于 构建 精确 的 分 析 模 型 ， 逐 渐 优 化 一 系列 模拟 模型 要 更 
容易 一 些 ; 

口 相对 于 分 析 模 型 ， 更 容易 从 模拟 模型 中 提取 出 有 用 的 中 间 结 果 ， 例 如 进行 “如 果 …… 那 
么 ……” 的 实验 ; 

口 计算 机 的 出 现 使 运行 大 规模 模拟 可 行 。 模 拟 的 作用 一 直 受 到 手工 计算 时 间 的 限制 ， 直 到 




















20 世 纪 中 期 现代 计算 机 的 出 现 。 

模拟 模型 是 描述 性 而 非 规定 性 的 。 它 可 以 描述 出 系统 如 何在 给 定 的 条 件 下 运行 , 但 不 能 告诉 
我 们 如 何 安排 条 件 才 能 使 系统 运行 得 最 好 。 模拟 模型 只 会 进行 描述 , 不 会 进行 优化 。 但 这 并 不 是 
说 模拟 不 能 作为 优化 过 程 的 一 部 分 , 例如 ， 寻 找 参数 设 定 的 最 优 集合 时 ,经常 使 用 模拟 作为 搜索 
过 程 的 一 部 分 。 

模拟 模型 可 以 按照 三 个 维度 进行 分 类 : 

口 确定 性 与 随机 性 

D 静态 与 动态 

口 离散 与 连续 

确定 性 模拟 的 行为 完全 由 模型 定义 , 重新 运行 模拟 不 会 改变 结果 。 当 要 建 模 的 系统 过 于 复杂 
而 不 能 使 用 分 析 模 型 时 ,通常 使 用 确定 性 模拟 模型 ， 例 如 处 理 器 芯片 的 性 能 。 随 机 性 模拟 在 模型 
中 引入 了 随机 性 , 多 次 运行 同一 个 模型 会 得 到 不 同 的 结果 。 这 种 随机 因素 要 求 我 们 生成 多 个 结 
以 找 出 结果 的 可 能 范围 。 需 要 生成 10 个 、1000 个 还 是 100 000 个 结果 是 个 统计 问题 ， 正 如 我 们 之 
前 讨论 过 的 那样 。 
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在 静态 模型 中 ， 时 间 的 作用 不 大 。 本 章 中 估计 x 值 的 扔 针 模拟 就 是 一 个 静态 模型 。 在 动态 模 
型 中 , 时间 (或 类 似 的 项 目 ) 是 个 基本 要 素 。 在 第 14 章 的 一 系列 随机 游 走 模 拟 中 ， 步 数 就 是 时 间 
的 代理 项 。 
在 离散 模型 中 ,相关 变量 的 值 是 可 数 的 ， 例 如 所 有 值 都 是 整数 。 在 连续 模型 中 ,相关 变量 的 
值 位 于 一 个 不 可 数 集合 中 ,例如 实数 集合 。 假 设 我 们 要 分 析 高 速 公路 上 的 车 流量 ,可 以 选择 对 
辆 车 进行 建 模 ， 这样 就 会 得 到 一 个 离散 模型 。 或 者 , 也 可 以 将 交通 情况 看 作 一 个 流 ,， 流 中 的 变化 
可 以 使 用 微分 方程 描述 , 这 就 是 一 个 连续 模型 。 在 本 例 中 ,离散 模型 更 接近 实际 情况 (没有 人 能 
驾驶 半 辆 汽车 ， 尽 管 有 些 车 的 体积 只 是 其 他 车 的 一 半 ), 但 在 计算 上 要 比 连续 模型 更 复杂 。 实 际 
上 ， 模 型 一 般 既 包括 离散 的 部 分 ， 也 包括 连续 的 部 分 。 举 例 来 说 ， 如 果 要 对 人 体 中 的 血 流 建 模 ， 
既 可 以 使 用 描述 血液 的 离散 模型 ( 即 对 血液 中 的 细胞 建 模 )， 也 可 以 使 用 描述 血压 的 连续 模型 。 16 
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回忆 一 下 , 统计 推断 的 中 心 就 是 ， 从 总 体 数据 中 随机 选择 一 个 子 集 ,并 根据 对 这 个 子 集 的 分 
析 来 推断 总 体 特性 。 这 个 子 集 就 称 为 样本 。 

抽样 非常 重要 , 因为 我 们 一 般 不 可 能 对 所 有 总 体 数据 都 进行 处 理 。 医 生 不 可 能 数 出 患者 血液 
中 的 所 有 病菌 种 类 , 但 是 找 出 患者 血液 样本 中 所 有 的 细菌 种 类 则 是 可 能 的 , 然后 就 可 以 由 此 推断 
出 全 部 血液 中 的 细菌 种 类 。 如 果 你 想 知道 18 岁 的 美国 人 的 平均 体重 , 可 以 试 着 将 所 有 这 些 人 聚集 
在 一 起 ， 放 在 一 个 特别 大 的 秤 上 称 出 总 重量 ， 然 后 用 总 重量 除 以 总 人 数 。 或 者 ， 你 也 可 以 随机 选 
择 出 50 位 18 岁 的 美国 人 , 计算 他 们 的 平均 体重 , 然后 假定 这 个 平均 体重 就 是 所 有 18 岁 人 的 平均 体 
重 的 一 个 合理 的 估计 值 。 

样本 与 总 体 之 间 的 一 致 性 是 最 重要 的 。 如果 样 本 不 能 代表 总 体 ,那么 不 论 数学 推导 多 么 精彩 ， 
都 不 能 得 出 有 效 的 推断 。 如 果 样 本 是 50 位 亚 裔 美国 妇女 ， 或 者 530 位 足球 运动 员 ， 而 总 体 是 所 有 18 
岁 的 美国 人 ,那么 就 不 能 用 这 种 样本 对 总 体 的 平均 体重 做 出 有 效 推 肠 。 

在 本 书 中 , 我 们 重点 关注 概率 抽样 。 通 过 概率 抽样 ,总体 中 的 每 个 个 体 都 有 一 定 的 非 零 概 率 
被 抽 中 。 在 简单 随机 抽样 中 ,总 体 的 每 个 个 体 被 抽 中 的 机 会 都 是 相等 的 。 在 分 层 抽 样 中 ， 先 将 总 
体 划分 为 若干 层 , 对 每 一 层 进行 随机 抽样 ， 然 后 组 成 样本 。 分 层 抽 样 可 以 提高 样本 在 整体 上 代表 
总 体 的 概率 。 举 例 来 说 ， 如 果 保 证 样本 中 男性 与 女性 的 比例 与 总 体 中 男性 与 女性 的 比例 相 一 致 ， 
那么 这 样 计算 出 的 样本 平均 体重 ( 即 样本 均值 ) 是 总 体 平均 体重 ( 即 总 体 均 值 ) 的 有 效 佑 计 值 的 
概率 就 会 更 大 。 


17.1 ”对 波士顿 马拉松 比赛 进行 抽样 


从 1897 年 开始 , 运动 员 ( 其 中 大 部 分 是 健全 人 ，1975 年 开始 增加 了 轮椅 组 ) 每 年 都 会 云集 在 
马萨诸塞 州 ， 参 加 波士顿 马拉松 比赛 。 近 年 来 ， 每 年 都 有 大 约 20 000 名 勇者 成 功 完成 42.195 千 米 
的 总 路 程 。 

在 本 书 的 相关 网 站 上 有 一 个 文件 , 其 中 包含 了 2012 年 的 比赛 数据 。 文件 (bm_ results2012.txt ) 
中 的 数据 是 以 逗号 分 隔 的 , 包括 每 个 参赛 者 的 姓名 、 人 性别、 年 龄 、 组 别 、 国 家 和 比赛 时 间 。 图 17-1 
给 出 了 文件 中 的 前 几 行 内 容 。 

因为 每 次 比赛 结果 的 完整 数据 都 非常 容易 获取 ， 所 以 没有 必要 通过 抽样 得 出 比赛 的 统计 信 
息 。 但 是 ， 将 样本 中 得 出 的 统计 量 估计 值 与 实际 值 进行 比较 ， 这 在 教学 上 是 非常 有 意义 的 。 
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"Gebremariam Gebregziabher",M,27,14,ETH,142.93 
"Matebo Levy",M,22,2,KEN,133.106 

"Cherop Sharon",F,28,1,KEN,151.83 

"Chebet Wilson",M,26,5,KEN,134.93 

"Dado Firehiwot",F,28,4,ETH,154.93 

"Korir Laban",M,26,6,KEN,135.48 

"Jeptoo Rita",F,31,6,KEN,155.88 

"Korir Wesley",M,29,1,KEN,132.67 

"Kipyego Bernard",M,25,3,KEN,133.22 

















图 17-1 ”bm _results2012.txt 中 的 前 几 行 内 容 


图 17-2 中 的 代码 会 生成 图 17-3。 隐 数 getBMData 从 包含 每 位 参赛 者 信息 的 文件 读 取 数据 ， 然 
后 将 数据 保存 到 一 个 字典 并 返回 ， 这 个 字典 有 6 个 元 素 。 字 典 的 键 描述 了 对 应 的 值 列 表 中 数据 的 
类 型 ( 如 ，'name' 或 'gender' )。 举例 来 说 ，data[ 'time'] 是 一 个 浮 点 数列 表 , 包含 了 每 位 参赛 
者 的 完成 时 间 ，data['name'][i] 是 第 ;位 参赛 者 的 姓名 ，data['time'][i] 是 第 ;位 参赛 者 的 完 
成 时 间 。 郴 数 makeHist 和 后 成 了 完成 时 间 的 可 视 化 表示 。 


























def getBMData(filename): 
0 分 隔 的 形式 ， 每 个 条 目 中 有 6 个 元 素 : 





@， 姓名 (字符 串 ) ，1， 性别 (字符 囊 ) ，2， 年 龄 (整数) ，3。 分 组 (整数 ) ， 
Say (字符 囊 ) ，5. 枚 闲 时间 ( 浮 点 数 ) 

个 字典 ， 包含 分 别 由 6 个 变量 组 成 的 列表 。""" 
data = {} 


f = open(filename) 
line = f.readline() 
data[ 'name '" ]，data[ gender ]， data[ ' age 和 [ 
data['division'], data['country'], data['time 
while line != "'": 
split = line.split(',') 
data[ 'name'].append(split[8]) 
data[ 'gender'].append(split[1]) 
data['age'].append(int(split[2])) 
data[ 'division'].append(int(split[3])) 
data['country'].append(split[4]) 
data['time'].append(float(split[5][:-1])) #remove \n 
line = f.readline() 
f.close() 
return data 


0 


，[], [] 
] = [], [], [] 


def makeHist(data, bins, title, xLabel, yLabel): 
pylab.hist(data, bins) 
pylab.title(title) 
pylab.xlabel(xLabel) 
pylab.ylabel(yLabel) 
mean = sum(data)/len(data) 
std = stdDev(data) 
pylab.annotate('Mean = ' + str(round(mean, 2)) +\ 
'\nSD = "+ str(round(std, 2)), fontsize = 20， 
= (0.65, 0.75), xycoords = 'axes fraction') 


times = getBMData('bm results2812.txt')['time'] 
makeHist(times, 206, '2612 Boston Marathon ' ， 
"Minutes to Complete Race', "Number of Runners ' ) 











图 17-2 ” 读 取 波士顿 马拉松 比赛 的 数据 并 生成 图 形 
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图 17-3 ”波士顿 马拉松 比赛 的 完成 时 间 





完成 时 间 的 分 布 有 点 像 正 态 分 布 ， 但 显然 并 不 是 ， 因 为 右 侧 出 现 了 肥 尾 现象 。 


下 面 , 假设 我 们 不 能 得 到 所 有 的 参赛 者 数据 ， 只 能 通 
有 参赛 者 平均 完成 时 间 的 相关 统计 量 。 

















过 抽样 随机 选择 少量 参赛 者 , 估计 出 所 


17-4 中 的 代码 对 times 中 的 数据 进行 了 简单 随机 抽样 ,然后 使 用 这 个 样本 估计 出 times 的 均 
值 和 标准 差 。 也 数 sampleTimes 使 用 random. sample(times, numExamples) 抽 取样 本 ,然后 返回 
一 个 列表 ,包含 numExamples 个 从 列表 times 中 随机 选择 的 不 同 元 素 。 完 成 抽样 之 后 ,sampleTimes 
生成 一 个 直方 图 ， 表 示 样 本 中 值 的 分 布 。 











sampleSize = 46 
sampleTimes(times, sampleSize) 





def sampleTimes(times, numExamples): 
"" "假设 times 是 浮 点 数列 表 ， 表 示 所 有 运动 员 的 完成 时 间 。 
生成 一 个 大 小 为 numExamples 的 随机 抽样 ， 画 出 直方 图 表示 随机 机 样 的 分 布 、 
sample = random.sample(times, numExamples) 
makeHist(sample, 106, 'Sample of Size 
"Minutes to Complete Race', 





"+ Str(numExamples), 
'Number of Runners') 


numExamples 是 一 个 整数 。 


均值 和 标准 差 。""" 








如 图 17-5 所 示 ， 样本 中 的 分 布 与 正 态 分 布 相 去 其 远 。 因 为 样本 数量 很 少 ， 
尽管 样本 数量 很 少 ( 从 21 000 的 总 体 中 抽取 出 了 40 个 ), 但 估算 出 的 均值 与 





怪 。 更 需 注意 的 是 ， 

















图 17-4 ”完成 时 间 抽 样 




















所 以 也 不 用 大 惊 小 


总 体 均 值 的 差别 还 不 到 2%。 是 我 们 非常 六 运 , 还 是 有 什么 原因 使 得 这 个 均值 的 估计 值 如 此 之 好 ? 
换 句 话说 ,我 们 能 否 以 一 种 定量 的 方式 表示 出 对 估计 值 的 确信 程度 ? 
正如 我 们 在 第 15 章 和 第 16 章 中 讨论 过 的 , 应 该 使 用 置信 区 间 和 置信 水 平 来 表示 估计 值 的 可 靠 














程度 。 如 果 从 一 个 庞大 的 总 体 中 抽取 了 一 个 〈 任 意 大 小 的 ) 独立 样本 , 那么 总 体 均值 的 最 好 估计 





值 就 是 样本 的 均值 。 对 于 某 个 规定 的 置信 水 平 ， 置 信 区 间 宽 度 的 估计 要 更 复杂 一 些 ， 它 部 分 依赖 


于 样本 大 小 。 
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40 个 样本 






均值 =267.95 | 
标准 差 =45.71 ] 








250 300 
完成 时 间 
图 17-5 ”小 样本 分 析 





样本 量 非常 重要 ， 这 很 容易 理解 。 大 数 定律 告诉 我 们 ， 当 样本 量 增加 时 ， 样 本 分 布 就 会 与 总 
体 分 布 更 加 一 致 。 所 以 样本 越 大 , 样本 均值 和 样本 标准 差 更 加 接近 总 体 均值 和 总 体 标准 差 的 可 能 
性 就 越 大 。 

但 是 样本 多 大 才 足 够 呢 ? 这 取决 于 总 体 方差 。 方 差 越 大 ， 需 要 的 样本 数 就 越 多 。 考 虑 两 种 正 
态 分 布 , 一 个 均值 为 90、 标准 差 为 1， 男 一 个 均值 为 90、 标准 差 为 100。 如 果 我 们 要 从 这 两 个 分 布 中 
随机 选择 一 个 元 素来 估计 分 布 的 均值 ， 那 么 对 于 任意 一 个 精确 度 e ， 估 计 值 位 于 真实 均值 (0 ) 
两 侧 e 之 间 的 概率 就 等 于 概率 密度 函数 曲线 下 从 -se 到 ee 的 面积 (参见 15.4.1 季 )。 图 17-6 中 的 代 
码 计算 并 输出 了 E=3 时 两 种 分 布 的 上 述 概率 。 








import scipy.integrate 


def gaussian(x, mu, sigma): 
factor1 = (1/(sigma*((2*pylab.pi)**0.5))) 
factor2 = pylab.e**-(((x-mu)**2)/(2*sigma**2)) 
return factor1l*factor2 


area = round(scipy.integrate.quad(gaussian, -3, 3, (60, 1))[86], 4) 
print('Probability of being within 3', 

"of true mean of tight dist. =', area) 
area = round(scipy.integrate.quad(gaussian, -3, 3, (06, 1606))[6], 4) 
print('Probability of being within 3', 

"of true mean of wide dist. =', area) 


























图 17-6” 售 计 均 值 时 方差 的 作用 
运行 图 17-6 中 的 代码 ， 会 输出 以 下 结 


Probability of being within 3 of true mean of tight dist. = 6.9973 
Probability of being within 3 of true mean of wide dist. = 6.6239 


图 17-7 中 的 代码 绘制 出 了 从 两 种 正 态 分 布 中 进行 1000 次 抽样 的 均值 ， 每 次 抽出 40 个 样本 点 。 
同样 ， 每 种 正 态 分 布 的 均值 都 是 0(， 只 不 过 一 种 的 标准 差 为 1， 另 一 种 的 标准 差 为 100。 
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def testSamples(numTrials, sampleSize): 
tightMeans, wideMeans = [], [] 
for t in range(numTrials): 
sampleTight, sampleWide = [], [] 
for i in range(sampleSize): 
sampleTight.append(random.gauss(0, 1)) 
sampleWide.append(random.gauss(60, 1060)) 
tightMeans.append(sum(sampleTight)/len(sampleTight)) 
wideMeans.append(sum(sampleWide)/len(sampleWide)) 
return tightMeans, wideMeans 


tightMeans, wideMeans = testSamples(16006, 406) 
pylab.plot(wideMeans, 'y*', label = ' SD = 166') 
pylab.plot(tightMeans, 'bo', label = 'SD = 1') 
pylab.xlabel('Sample Number') 

pylab.ylabel('Sample Mean') 

pylab.title('Means of Samples of Size ' + str(40)) 
pylab.legend() 


pylab.figure() 

pylab.hist(wideMeans, bins = 260, label = 'SD = 166') 
pylab.title('Distribution of Sample Means') 
pylab.xlabel('Sample Mean') 

pylab.ylabel('Frequency of Occurrence') 
pylab.legend() 














图 17-7 计算 并 绘制 样本 均值 





40 个 样本 的 均值 样本 均值 的 分 布 
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图 17-8 ”样本 均值 


图 17-8 左 图 表示 每 个 样本 的 均值 。 正 如 我 们 所 料 ， 当 总 体 标准 差 为 1 时 ， 样 本 均值 都 集中 在 
总 体 均 值 0 附 近 ， 因 此 我 们 看 不 见 独 立 的 圆 点 ， 它 们 密集 到 融合 成 了 一 个 细 条 。 相 反 ， 当 总 体 标 
准 差 为 100 时 ,样本 均值 则 完全 无 规则 地 分 布 在 各 处 。 

然而 ,看 一 下 图 17-8 右 图 ， 这 是 标准 差 为 100 的 分 布 的 样本 均值 直方 图 ， 我 们 会 发 现 一 些 重 
要 信息 : 这 些 均值 形成 一 个 分 布 ， 而 且 非 常 接近 于 均值 为 0 的 正 态 分 布 。 出 现 这 种 情况 并 非 偶 然 ， 
这 是 由 概率 和 统计 领域 内 最 著名 的 一 个 定理 一 一 中 心 极限 定理 所 决定 的 。 
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17.2 ”中心 极限 定理 


假设 我 们 可 以 从 一 个 总 体 中 多 次 抽取 样本 , 那么 各 个 样本 均值 的 差异 性 可 以 使 用 从 同一 总 体 
中 抽取 的 单个 样本 进行 估计 ， 这 样 做 的 根据 就 是 中 心 极限 定理 。 

中 心 极限 定理 最 早 由 拉 普 拉 斯 在 1810 年 提出 , 泊 松 在 19 世 纪 20 年 代 又 对 其 进行 了 完善 。 然 而 
今天 我 们 所 知 的 中 心 极 限定 理 是 20 世 纪 上 半 叶 多 位 杰出 数学 家 共同 的 工作 成 果 。 

尽管 〈 或 许 正 因为 ) 对 中 心 极限 定理 做 出 贡献 的 数学 家 都 赫赫 有 和 名， 这 个 定理 却 非常 简单 ， 






























































其 表述 如 下 : 
口 给 定 一 组 从 同一 总 体 中 抽取 的 足够 大 的 样本 ， 这 些 样本 的 均值 (样本 均值 ) 大 致 服从 正 
态 分 布 ; 


口 这 个 正 态 分 布 的 均值 近似 等 于 总 体 均值 ; 
口 样本 均值 的 方差 ( 在 15.3 节 中 定义 ) 近似 等 于 总 体 方差 除 以 样本 量 。 

我 们 看 一 个 中 心 极限 定理 的 实际 例子 。 假 设 你 有 一 个 特殊 的 骨 子 ,每 次 投掷 都 会 得 到 一 个 0~5 
的 随机 实数 .图 17-9 中 的 代码 模拟 了 多 次 投掷 这 个 骨 子 的 过 程 ,并 输出 均值 和 方差 ( 函数 variance 
定义 在 图 15-8 中 )， 然 后 绘制 直方 图 ， 表 示 投 掷 次 数 的 概率 范围 。 我 们 同时 还 模拟 了 多 次 投掷 100 
个 骨 子 的 过 程 ， 并 (在 同一 图 中 ) 绘制 出 了 这 100 个 骨 子 的 均值 的 直方 图 。 使 用 hatch 关 键 字 参数 
来 区 别 两 个 直方 图 的 图 形 。 
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def plotMeans(numDicepPerTrial, numDiceThrown, numBins, legend, 
color, style): 
means = [] 
numTrials = numDiceThrown//numDicePerTrial 
for i in range(numTrials): 
vals = 6 
for j in range(numDiceperTrial): 
vals += 5*random.random() 
means.append(vals/numDicePerTrial) 
pylab.hist(means, numBins, color = color, label = legend, 
weights = pylab.array(len(means)*[1])/len(means), 
hatch = style) 
return sum(means)/len(means), variance(means) 


mean, var = plotMeans(1, 16666060, 11, '1 die', 'w', '*') 
print('Mean of rolling 1 die =', round(mean,4), 
'Variance =', round(var,4)) 
mean, var = plotMeans(166，166666，11， 
'Mean of 166 dice', 'w', '//') 
print('Mean of rolling 166 dice =', round(mean, 4), 
'Variance =', round(var, 4)) 
pylab.title('Rolling Continuous Dice ') 
pylab.xlabel('Value') 
pylab.ylabel('Probability') 
pylab.1legend() 











图 17-9 ”估计 一 个 连续 仍 子 的 均值 





226 第 17 章 抽样 与 置信 区 间 











关键 字 参 数 weights 是 一 个 数组 ， 它 与 hist 的 第 一 个 参数 具有 同样 的 长 度 ， 用 来 为 第 一 个 参 

数 中 的 每 个 元 素 赋予 一 个 权重 。 于 是 ， 在 生成 的 直方 图 中 ,计算 区 间 中 值 的 数量 时 ， 使 用 的 就 是 

每 个 值 的 权重 ( 而 不 是 通常 的 1 ), 在 本 例 中 , weights 的 作用 是 将 y 值 转换 为 每 个 区 间 的 相对 数量 ， 

而 不 是 绝对 数量 。 因 此 ， 对 于 每 个 区 间 ，Y 轴 的 值 就 是 均值 落 在 这 个 区 间 内 的 概率 。 
运行 上 面 的 代码 ， 会 生成 图 17-10 中 的 图 形 ， 并 输出 : 


Mean of rolling 1 die = 2.4974 Variance = 2.60964 
Mean of rolling 166 dice = 2.4981 Variance = 8.62 


在 这 两 个 实验 中 ,均值 都 非常 近似 于 期 望 均 值 2.5。 因 为 我 们 的 仍 子 是 公平 的 ， 所 以 一 次 掷 1 
个 蜗 子 时 , 均值 的 概率 分 布 几 乎 "就 是 完美 的 均匀 分 布 , 也 就 是 说 ,与 正 态 分 布 相去 甚 远 。 但 是 ， 
当 我 们 一 次 撕 100 个 骨 子 时 ， 均 值 的 概率 分 布 几乎 就 是 完美 的 正 态 分 布 ， 其 峰值 就 是 期 望 均值 。 
更 奇妙 的 是 ， 撕 100 个 角子 所 得 均值 的 方差 非常 近似 于 撕 1 个 散 子 所 得 均值 的 方差 除 以 100。 实 验 
的 结果 完全 符合 中 心 极限 定理 。 
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区 到 1 个 骸 子 
100 个 骸 子 的 均值 


人 2 




















图 17-10 中心 极限 定理 图 解 


很 高 兴 中 心 极限 定理 确实 起 了 作用 , 但 是 它 有 什么 实际 用 处 呢 ? 难道 只 有 在 酒吧 里 喝酒 扔 货 
子 时 才能 体会 吗 ? 当然 不 是 , 中 心 极限 定理 的 最 大 价值 在 于 , 即使 总 体 的 内 在 分 布 不 是 正 态 分 布 ， 
我 们 也 可 以 根据 中 心 极限 定理 计算 出 置信 水 平和 置信 区 间 。15.4.2 节 介绍 置信 区 间 时 ， 我 们 指出 
了 经 验 法 则 是 基于 一 些 关 于 抽样 空间 性 质 的 假设 的 ， 这 些 假设 是 : 
口 估计 误 差 的 均值 为 0; 

口 估计 误差 服从 正 态 分 布 。 
它们 成 立时 , 正 态 分 布 的 经 验 法 则 可 以 提供 一 种 非常 方便 的 方法 , 在 给 定 均 值 和 标准 差 的 情况 下 
估计 置信 区 间 和 置信 水 平 。 

回 到 波士顿 马拉松 这 个 例子 。 图 17-11 中 的 代码 会 生成 图 17-12， 它 对 于 每 种 不 同 的 样本 量 分 







































































@ 使 用 “几乎 ”是 因为 我 们 投掷 奶子 的 次 数 是 有 限 的 。 
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别 进 行 了 20 次 简单 随机 抽样 ,并 计算 出 每 次 抽样 所 得 样本 的 均值 。 对 于 这 些 均值 ， 再 计算 出 均值 
和 标准 差 。 根 据 中 心 极限 定理 可 知 ,样本 均值 服从 正 态 分 布 , 所 以 我 们 可 以 使 用 标准 差 和 经 验 法 
则 计算 出 每 个 样本 量 在 95% 置 信 水 平 下 的 置信 区 间 。 

如 图 17-12 所 示 ， 所 有 样本 均值 都 非常 接近 实际 的 总 体 均 值 。 但 请 注意 ， 随 着 样本 量 的 增加 ， 
样本 均值 的 误差 并 不 是 单调 递减 的 ， 使 用 250 个 样本 估计 出 的 均值 要 比 使 用 50 个 样本 估计 出 的 均 
值 更 差 。 随 着 样本 量 单调 变化 的 是 我 们 对 估计 出 的 均值 的 确信 程度 。 当 样本 量 从 50 增 加 到 1850 
时 ,置信 区 间 从 大 约 +15 减 少 到 了 大 约 +2。 这 是 非常 重要 的 。 凭 运气 偶然 得 到 一 个 好 的 估计 值 没 
有 什么 意义 ， 我们 需要 知道 对 估计 值 的 确信 程度 。 


















































times = getBMData('bm results2812.txt')['time'] 
meanOfMeans, stdofMeans = [], [] 
sampleSizes = range(50，2666，266) 
for sampleSize in sampleSizes: 
sampleMeans = [] 
for t in range(20): 
sample = random.sample(times, sampleSize) 
sampleMeans.append(sum(sample)/sampleSize) 
meanOfMeans.append(sum(sampleMeans)/len(sampleMeans)) 
stdofMeans.append(stdDev(sampleMeans)) 
pylab.errorbar(sampleSizes, meanOfMeans, 
yerr = 1.96*pylab.array(stdofMeans), 
label = 'Estimated mean and 95% confidence interval') 
pylab.xlim(6, max(sampleSizes) + 56) 
pylab.axhline(sum(times)/len(times), linestyle = '--" 
label = 'Population mean') 
pylab.title('Estimates of Mean Finishing Time') 
pylab.xlabel('Sample Size') 
pylab.ylabel('Finshing Time (minutes)') 
pylab.legend(loc = 'best') 
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图 17-11 生成 带 有 误差 条 的 图 形 
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图 17-12” 带 有 误差 条 的 完成 时 间 佑 计 
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17.3 均值 的 标准 误差 


通过 前 面 的 分 析 我 们 知道 ， 如 果 进 行 20 次 样本 量 为 1850 的 随机 抽样 ,那么 在 95% 的 置信 水 平 
之 下 ,我 们 可 以 估计 出 误差 在 4 分 钟 之 内 的 平均 完成 时 间 。 我 们 使 用 样本 均值 的 标准 差 完成 这 一 
估计 。 不 幸 的 是 ， 这 样 做 会 使 总 样本 数 ( 20x1850=37 000 ) 超过 实际 的 参赛 者 数量 ， 所 以 这 似乎 
不 是 一 个 有 实际 意义 的 结果 。 我 们 确实 可 以 使 用 总 体 数据 计算 出 实际 的 均值 , 但 我 们 需要 的 是 一 
种 通过 单个 样本 估计 置信 区 间 的 方法 ， 这 就 引出 了 均值 的 标准 误差 这 个 概念 。 

大 小 为 n 的 样本 的 标准 误差 ， 就 是 对 同一 总 体 进行 无 限 次 大 小 为 n 的 抽样 得 到 的 均值 的 标准 
差 。 很 自然 地 ， 标 准 误差 取决 于 n 和 oc，o 为 总 体 的 标准 差 : 


(on 
SE=— 
Vn 


对 于 图 17-12 中 使 用 的 每 个 样本 量 , 我 们 都 进行 了 20 次 抽样 ,计算 出 20 个 样本 均值 的 标准 差 ， 
并 与 相应 样本 的 标准 误差 进行 了 对 比 ， 如 图 17-13 所 示 。 
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图 17-13 ”均值 的 标准 误差 


当 我 们 进行 20 次 抽样 时 ,均值 的 标准 差 非常 近似 于 标准 误差 。 在 两 次 实验 中 ， 随 着 样本 量 逐 
渐 增 加 ,标准 差 开始 时 快速 减少 , 然后 减少 的 速度 越 来 越 慢 。 因 为 标准 差 的 减少 是 由 样本 量 的 平 
方 根 决定 的 ， 要 想 将 标准 差 减 少 一 半 ， 我 们 需要 将 样本 量 增 加 4 信 。 

唉 ! 如 果 我 们 只 有 一 个 样本 ,那么 不 可 能 知道 总 体 的 标准 差 。 通常, 我 们 会 假设 这 个 样本 的 
标准 差 一 一 即 样本 标准 差 一 是 总 体 标准 差 的 一 个 合理 的 替代 。 当 总 体 分 布 并 未 严重 扭曲 时 , 这 
样 做 是 可 行 的 。 

17-14 中 的 代码 根据 波士顿 马拉松 数据 创建 了 100 个 大 小 不 同 的 样本 , 计算 出 了 每 个 样本 的 
标准 差 ， 并 与 总 体 标准 差 进行 了 比较 ， 然 后 生成 了 图 17-15。 
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times = getBMData('bm results2812.txt')['time'] 
popStd = stdDev(times) 
sampleSizes = range(2，260，2) 
diffsMeans = [] 
for sampleSize in sampleSizes: 
diffs = [] 
for t in Fange(166) : 
diffs.append(abs(popStd - stdDev(random.sample(times, 
sampleSize)))) 
diffsMeans.append(sum(diffs)/len(diffs)) 
pylab.plot(sampleSizes, diffsMeans) 
pylab.xlabel('Sample Size') 
pylab.ylabel('Abs(Pop. Std - Sample Std)') 
pylab.title('Sample SD vs Population SD') 














图 17-14 ”样本 标准 差 与 总 体 标准 差 
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图 17-15 ”样本 标准 差 


当 样本 量 达 到 100 时 ， 样 本 标准 差 与 总 体 标准 差 之 间 的 差别 已 经 非常 小 了 。 

实际 上 ， ee 径 常 使 用 样本 标准 差 代替 ( 通常 是 未 知 的 ) 总 体 标准 差 来 估计 标准 误差 。 如 果 
样本 足够 大 "， 而 且 总 体 分 布 与 正 态 分 布 差别 不 是 很 大 的 话 ， 使 用 这 种 方法 通过 经 验 法 则 来 计算 
置信 可 以 的 。 

这 意味 着 什么 呢 ? 如 果 我 们 使 用 一 个 包括 200 名 参赛 者 的 样本 ， 就 可 以 : 
口 计算 该 样本 的 均值 和 标准 差 ; 
口 使 用 该 样本 的 标准 差 估计 标准 误差 ; 
























































@ 你们 是 不 是 很 喜欢 “选择 一 个 足够 大 的 样本 ”这 种 简明 的 指示 ? 不 幸 的 是 ， 当 你 对 总 体 的 基本 信息 知之 甚 少 的 时 
候 ， 没 有 一 个 简单 方法 可 以 选择 出 足够 大 的 样本 。 很 多 统计 学 家 认为 ， 当 总 体 分 布 近似 于 正 态 分 布 时 ，30~40 个 
样本 已 经 足够 大 了 。 对 于 更 小 的 样本 ， 最 好 使 用 (分 布 计算 置信 区 间 。; 分 布 与 正 态 分 布 很 相似 ， 但 具有 肥 尾 特点 ， 
所 以 算出 来 的 置信 区 间 要 更 宽 一 些 。 
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口 使 用 估计 出 的 标准 误差 生成 样本 均值 的 置信 区 间 。 








图 17-16 中 代码 将 上 面 的 过 程 执行 了 10 000 次 ， 然 后 输出 样本 均值 位 于 总 体 均 值 两 侧 1.96 个 





标准 误差 之 外 的 比例 。( 回忆 一 下 , 对 于 正 态 分 布 , 95% 的 数据 都 落 在 均值 两 侧 1.96 个 标准 差 的 





范围 内 。) 





times = getBMData('bm results2812.txt')['time'] 
popMean = sum(times)/len(times) 
sampleSize = 266 
numBad = 6 
for t in range(16666 ) : 
sample = random.sample(times, sampleSize) 
sampleMean = sum(sample)/sampleSize 
se = stdDev(sample)/sampleSize**Q@.5 
if abs(popMean - sampleMean) > 1.96*se: 
numBad += 1 





print('Fraction outside 95% confidence interval =', numBad/16660) 








图 17-16 ”估计 总 体 均值 10 000 次 
运行 上 面 的 代码 ， 会 输出 以 下 结果 : 
Fraction outside 95% confidence interval = 60.060533 


与 理论 预测 值 几乎 一 样 ， 中 心 极限 定理 再 得 一 分 ! 























理解 实验 数据 











本 章 介绍 如 何 理解 实验 数据 。 我 们 会 大 量 使 用 绘图 对 数据 进行 可 视 化 , 并 展示 如 何 使 用 线性 
回归 对 实验 数据 进行 建 模 。 我 们 还 会 讨论 物理 实验 与 计算 机 实验 之 间 的 相互 作用 。 至 于 如 何 得 到 
一 个 统计 上 有 效 的 结论 ， 将 在 第 19 章 进行 讨论 。 


18.1 ”弹簧 的 行为 


弹 得 非常 奇妙 ， 当 被 外 力 压 缩 或 拉 伸 时 ,它们 会 储存 能 量 ; 当 外 力 消失 时 ， 它 们 就 会 将 储存 
的 能 量 释放 出 来 。 这 种 特性 使 它们 可 以 在 汽车 行驶 时 减少 震动 ,使 床 垫 贴 合 我 们 的 身体 ， 自 动 收 
回 安全 带 ， 还 可 以 发 射 炮 弹 。 

1676 年 ， 英 国 物 理学 家 罗伯特 胡 克 提出 了 弹性 的 胡 克 定律 〈Uttensio, sic vis， 弹 性 与 力 成 
正比 )， 用 公式 表述 就 是 F = -kx。 换 句 话 说 ， 弹 簧 中 储存 的 力 F 与 弹 得 被 压缩 (或 拉 伸 ) 的 距离 
成 线性 关系 。( 负 号 表示 弹簧 发 力 的 方向 与 其 位 移 方向 相反 。) 胡 克 定律 适用 于 多 种 材料 和 系统 ， 
包括 很 多 生物 系统 。 当 然 ， 它 不 适用 于 任意 大 的 力 ， 所 有 弹簧 都 有 一 个 弹性 极限 ， 超 过 这 个 极限 
的 话 ， 胡 克 定 律 就 失效 了 。 如 果 你 曾经 将 玩具 弹簧 圈 拉 得 过 长 ， 应 该 对 此 深 有 体会 。 

比例 常数 [ 称 为 弹簧 常数 。 如 果 弹 短 很 硬 ( 像 汽 车 悬挂 系统 中 的 弹 得 或 射手 的 弓 辟 )，Kk 就 会 
很 大 。 如 果 弹 得 很 软 ， 比 如 圆珠笔 中 的 弹簧 ，k 就 会 很 小 。 

知道 某 个 弹簧 的 弹簧 常数 是 非常 重要 的 。 不 论 是 校准 简单 的 天 平 还 是 复杂 的 原子 力 显 微 镜 ， 
都 需要 知道 部 件 的 弹簧 常数 DNA 链 的 机 械 行 为 与 压缩 它 的 力 相 关 。 号 射出 箭 的 力 则 与 马 臂 的 弹 
簧 常数 相关 。 诸 如 此 类 。 

每 届 学 生 都 使 用 图 18-1 中 的 物理 仪器 学 习 估 算 弹 往常 数 的 方法 。 
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图 18-1 一 个 经 典 的 实验 


开始 时 ， 弹 签 上 没有 任何 重量 , 我 们 可 以 测量 出 弹 竹 底部 到 仪器 顶端 的 距离 。 然 后 ,在 弹 得 
上 甚 挂 一 个 已 知 质 量 的 物体 ， 并 等 待 弹 答 停止 移动 。 这 时 ,弹簧 中 储存 的 力 就 是 其 挂 的 物体 施加 
给 弹簧 的 力 ， 也 就 是 该 物体 的 重量 ， 这 就 是 胡 克 定律 中 的 F。 再 次 测量 弹簧 底部 到 仪器 项 端的 距 
离 ， 悬 挂 物体 前 后 两 个 距离 的 差 就 是 胡 克 定律 中 的 x。 

我 们 知道 施加 在 弹簧 上 的 力 F 等 于 物体 的 质量 m 乘 以 重力 加 速度 g ( 在 地 球 上 ， 大 约 是 
9.81m/s* )， 所 以 ， 我 们 可 以 用 m*g 替 换 F。 通 过 简单 的 代数 运算 ， 我 们 得 出 E= --(m*g)/x。 

假设 m= 1 千克 ,x= 0.1 米 ， 那 么 
lkg*9.8l1m/s’ 9.81N 
om Om 
通过 计算 可 知 ，98.1 牛 顿 ? 的 力 可 以 将 弹簧 拉 长 1 米 。 

要 想 保 证 上 面 的 结论 是 正确 的 ， 下 面 的 情况 必须 成 立 。 
D 我 们 完全 确定 按照 要 求 进行 了 实验 。 这样 才能 进行 测量 、 执 行 计算 并 得 出 k。 但 不 幸 的 是 ， 
实验 科学 很 难保 证 这 种 情况 。 
口 我 们 确定 在 弹 短 的 弹性 极限 内 执行 了 这 些 操作 。 

一 种 更 具 鲁 棒 性 的 实验 应 该 是 , 在 弹 壬 上 悬挂 多 个 重量 不 断 增加 的 物体 , 并 测量 出 弹簧 每 次 
拉 伸 的 长 度 ， 然 后 绘制 结果 。 我 们 进行 了 这 样 的 实验 ， 并 将 结果 保存 在 springData.txt 文 件 中 : 


Distance (m) Mass (kg) 
60.6865 6.1 
60.1015 6.15 





























































































































k 





—9.81 N/m 













































































9.4416 8.9 
9.4364 68.95 
9.437 1.6 














@ 牛顿 ， 写 作 N， 是 力 的 国际 标准 单位 。1 和 牛顿 是 将 质量 为 1 千克 的 物体 的 速度 在 1 秒 钟 内 提高 1 米 所 需 的 力 。 顺 便 说 
一 下 ， 玩 具 弹 簧 圈 的 弹簧 常数 大 约 为 N/m。 








def getData(fileName): 
dataFile = open(fileName, 'r') 
distances = [] 
masses = [] 
dataFile.readline() #ignore header 
for line in dataFile: 
d, m = line.split(' ') 
distances.append(float(d)) 
masses.append(float(m)) 
dataFile.close() 
return (masses, distances) 














图 18-2 ”从 文件 中 提取 数据 
图 18-3 中 的 函数 使 用 getData 从 文件 中 提取 实验 数据 ， 然 后 生成 图 18-4。 








def plotData(inputFile) : 
masses, distances = getData(inputFile) 
distances = pylab.array(distances) 
masses = pylab.array(masses) 
forces = masses*9.81 
pylab.plot(forces, distances, 'bo', 

label = 'Measured displacements') 

pylab.title('Measured Displacement of Spring') 
pylab.xlabel('|Force| (Newtons)') 
pylab.ylabel('Distance (meters)') 





plotData('springData.txt') 











图 18-3 ”绘制 数据 
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这 和 胡 克 定律 并 不 相符 。 胡 元 定律 告诉 我 们 ， 距离 应 该 与 质量 成 线性 关系 ， 也 就 是 说 ,图 中 
的 点 应 该 在 一 条 直线 上 ， 直 线 的 斜率 由 弹簧 常数 决定 。 当 然 ， 在 实际 测量 时 ,实验 数据 很 难 完美 
地 与 理论 匹配 测量 误差 是 难以 避免 的 , 我 们 应 该 期 望 数 据点 在 直线 附近 , 而 不 是 正好 在 直线 上 。 

当然 , 如 果 有 一 条 直线 可 以 表示 我 们 的 最 佳 预 测 ， 即 表示 如 果 没 有 测量 误差 时 点 应 该 在 哪个 
位 置 ， 那 就 更 好 了 。 要 达到 这 个 目的 ， 通常 的 做 法 是 使 用 一 条 直线 拟 合 数据 。 


使 用 线性 回归 进行 拟 合 


不 论 我 们 使 用 何 种 曲线 ( 包括 直线 ) 拟 合 数据 ， 都 需要 某 种 方法 确定 哪 条 曲线 才 是 数据 的 最 
佳 拟 合 。 这 意味 着 我 们 需要 定义 一 个 目标 函数 ， 对 曲线 拟 合 数据 的 程度 提供 一 个 定量 的 评价 。 如 
果 我 们 定义 了 目标 函数 , 那么 找到 最 优 拟 合 就 可 以 明确 表述 为 一 个 最 优化 问题 (参见 第 12 章 和 第 
13 章 ): 找到 一 条 曲线 ,使 目标 函数 值 最 小 (或 最 大 )。 

最 常用 的 目标 函数 称 为 最 小 二 夹 。 令 observed 和 predicted 为 两 个 同样 长 度 的 问 量 ， 
observed 中 是 实际 测量 出 来 的 点 ，predicted 中 则 是 拟 合 曲线 上 相应 的 数据 点 。 

那么 ， 目 标 函 数 就 可 以 定义 为 : 


len(observed)—1 


(observed[i] — predicted[i])’” 

















































































































对 observed 和 predicted 中 的 点 的 差 进 行 平方 , 使 得 二 者 之 间 较 大 的 差 比较 小 的 差 更 重要 。 对 差 
进行 平方 还 可 以 消除 差 的 正 负 影响 。 

我 们 应 该 怎样 找到 最 优 的 最 小 二 乘 拟 合 呢 ?一 种 方法 是 使 用 逐次 允 近 算法 ， 类 似 于 第 3 章 中 
的 牛顿 - 拉 弗 森 算 法 。 男 一 种 方法 是 使 用 解析 的 方法 ,然而 我 们 不 需 使 用 以 上 两 种 方法 ,因为 PyLab 
中 提供 了 一 个 内 置 函数 polyfit， 它 可 以 找 出 最 小 二 乘 拟 合 的 近似 解 。 调 用 以 下 函数 : 

pylab.polyfit (observedXVals, observedYVals, n) 
可 以 找 出 一 组 n 阶 多 项 式 的 系数 ,这 个 多 项 式 就 是 定义 在 observedXVals 和 observedYVals 这 两 个 
数组 中 的 数据 点 的 最 优 最 小 二 乘 拟 合 。 举 例 来 说 ， 调 用 以 下 函数 : 

pylab.polyfit(observedXVals, observedYVals, 1) 
可 以 找 出 一 条 由 多 项 式 y= ax+b 定 义 的 直线 ， 这 里 的 a 是 直线 的 斜率 ，b 是 Y 轴 上 的 截 距 。 在 本 例 
中 , 函数 会 返回 一 个 带 有 两 个 浮 点 数 的 数组 。 同样 , 二 次 方程 y= ax”+ bx+c 可 以 定义 一 条 抛物 线 。 
因此 ， 调 用 以 下 函数 : 

pylab.polyfit(observedXVals, observedYVals, 2) 
可 以 返回 一 个 带 有 3 个 浮 点 数 的 数组 。 

ployfit 使 用 的 算法 称 为 线性 回归 。 这 有 点 令 人 费解 ,因为 使 用 这 种 算法 不 只 可 以 拟 合 直 线 ， 
还 可 以 拟 合 曲线 。 确实 有 些 人 会 明确 区 分 线性 回归 ( 当 模 型 是 线性 的 ) 和 多 项 式 回 归 ( 当 模 型 是 
阶 数 大 于 1 的 多 项 式 时 ), 但 多 数 人 不 会 。” 



































































































































Q 不 加 区 分 的 原因 是 ， 尽 管 多 项 式 回 归 使 用 非 线性 模型 拟 合 数据 ， 但 在 估计 未 知 参数 时 使 用 的 还 是 线性 模型 。 
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图 18-5 中 的 fitData 函 数 扩展 了 图 18-3 中 的 plotData 函 数 ， 添 加 了 一 条 直线 来 表示 数据 的 最 
佳 拟 合 。 它 使 用 polyfit 找 出 系数 c 和 #， 然 后 使 用 这 些 系 数 为 每 个 力 生 成 弹簧 位 移 的 预测 值 。 请 
注意 ， 函 数 对 forces 和 distance 的 处 理 是 不 一 样 的 ，forces 中 的 值 (来 自 于 悬挂 在 弹簧 上 的 物 
体 的 质 量 ) 是 作为 自 变量 处 理 的 ， 用 来 生成 因 变 量 predictedDistances 的 值 (由 悬挂 物体 引起 
的 弹簧 位 移 的 预测 值 )。 

这 个 函数 还 计算 了 弹 短 常 数 F, 直线 的 斜率 a 是 Adistance/Aforce, 而 弹 得 常数 是 Aforce/Adistance， 
所 以 ,Kk 是 a 的 倒数 。 




























































































def fitData(inputFile) : 
masses，distances = getData(inputFile) 
distances = pylab.array(distances) 
forces = pylab.array(masses)*9.81 
pylab.plot(forces, distances, 'ko', 
label = 'Measured displacements') 
pylab.title('Measured Displacement of Spring') 
pylab.xlabel('|Force| (Newtons)') 
pylab.ylabel('Distance (meters)') 
#find linear fit 
a,b = pylab.polyfit(forces, distances, 1) 
predictedDistances = a*pylab.array(forces) + b 
k = 1.6/a #see explanation in text 
pylab.plot(forces, predictedDistances, 
label = 'Displacements predicted by\nlinear fit, k = " 
+ str(round(k, 5))) 
pylab.legend(loc = 'best') 




















图 18-5 ”使 用 曲线 拟 合 数据 
调用 fitData('springData.txt' ) 会 生成 图 18-6 中 的 图 形 。 
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阻力 (牛顿) 
图 18-6 ”测量 点 和 线性 模型 
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有 趣 的 是 ， 只 有 很 少 几 个 点 落 在 最 小 二 乘 拟 合 的 直线 上 。 这 很 正常 ， 因 为 我 们 的 目标 是 误差 
平方 和 最 小 化 ， 而 不 是 使 落 在 线 上 的 点 最 多 。 当 然 ， 这 个 拟 合 看 上 去 不 够 好 。 我 们 向 fitData 添 
加 一 些 代码 ， 试 一 下 三 次 拟 合 : 

#find cubic fit 

fit = pylab.polyfit(forces, distances, 3) 


predictedDistances = pylab.polyval(fit, forces) 
pylab.plot(forces, predictedDistances, 'k:', label = 'cubic fit') 


在 这 段 代码 中 ， 我 们 使 用 函数 polyval 生 成 三 次 拟 合 的 数据 点 ， 这 个 函数 有 两 个 实 参 : 一 个 
是 表示 多 项 式 系数 的 序列 ， 另 一 个 是 自 变 量 序列 ， 供 多 项 式 计 算 预 测 值 。 以 下 代码 片段 : 


fit = pylab.polyfit(forces, distances, 3) 
predictedDistances = pylab.polyval(fit, forces) 


和 以 下 代码 片段 是 等 价 的 : 


a,b,c,d = pylab.polyfit(forces, distances, 3) 
predictedDistances = a*(forces**3) + b*forces**2 + c*forces + d 


这 上段 代码 会 生成 图 18-7。 三 次 拟 合 建 立 的 数据 模型 看 上 去 要 比 线性 拟 合 好 很 多 , 但 真 的 是 这 
样 吗 ? 未 必 如 此 。 
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图 18-7 ”线性 拟 合 与 三 次 拟 合 


在 技术 文献 中 ， 我 们 经 常会 看 到 类 似 的 图 ， 其 中 既 有 原始 数据 ， 也 有 一 条 拟 合 数据 的 曲线 。 
然而 , 作者 往往 会 将 拟 合 曲 线 当 作对 真实 情况 的 描述 ,而 将 原始 数据 看 作 实 验 误差 。 这 是 非常 危 
险 的 一 种 做 法 。 

回忆 一 下 ,理论 上 x 值 和 y 值 应 该 是 线性 关系 ， 而 不 是 三 次 关系 。 我 们 看 看 以 下 情况 ， 如 果 使 
用 三 次 模型 预测 悬挂 1.5 千 克 物 体 时 弹簧 的 位 移 ， 那 么 相应 的 点 会 在 哪里 ? 如 图 18-8 所 示 。 
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阻力 (牛顿) 
图 18-8 ”使 用 模型 进行 预测 


这 时 ,三 次 模型 表现 得 就 不 那么 好 了 。 特 别 地 , 在 弹簧 上 悬挂 一 个 非常 重 的 物体 ， 居 然 会 使 
单 得 上 升 得 比 最 初 的 悬挂 位 置 还 高 (y 值 是 负数 ), 这 简直 是 天 方 夜 谭 。 这 种 情况 就 是 过 拟 合 的 典 
型 例子 。 当 模型 过 于 复杂 时 ,经 常会 出 现 过 拟 合 , 例如 ， 数据 量 较 少 而 参数 特别 多 的 时 候 。 发 生 
过 拟 合 时 ， 拟 合 模型 反映 出 的 是 数据 中 的 噪声 ， 而 不 是 数据 中 有 意义 的 关系 。 过 拟 合 模型 的 预测 
能 力 通常 很 弱 ， 就 像 这 个 例子 中 一 样 。 


实际 练习 : 修改 图 18-5 中 的 代码 ， 生 成 图 18-8。 


我 们 回 到 线性 拟 合 。 暂 时 忘掉 那 条 直线 , 研究 一 下 原始 数据 ,是 不 是 有 些 古怪 ? 如 果 我 们 只 
对 最 右边 的 6 个 点 进行 拟 合 ， 会 得 到 一 条 几乎 与 X 轴 平行 的 直线 。 这 不 符合 胡 克 定律 一 一 我 们 终 
于 意识 到 ， 胡 克 定 律 只 在 弹性 极限 内 才 有 效 。 这 个 弹簧 可 能 在 7N (大约 0.7 千 克 ) 左右 就 达到 了 
弹性 极限 。 

如 果 去 掉 最 后 6 个 点 ， 会 是 什么 情况 ? 将 fitData 的 第 二 行 和 第 三 行 奉 换 为 以 下 代码 ; 


distances = pylab.array(distances[:-6]) 
masses = pylab.array(masses[:-6]) 


如 图 18-9 所 示 ， 去 掉 6 个 点 后 ， 模 型 确实 发 生 了 变化 : 显著 减 小 ， 而 且 线 性 拟 合 和 三 次 拟 合 
几乎 没有 区 别 。 但 是 在 弹性 极限 内 , 我 们 怎么 知道 哪 种 线性 模型 能 更 好 地 表示 弹 得 的 行为 呢 ?” 可 
以 使 用 一 些 统计 检验 来 确定 哪 一 条 直线 可 以 更 好 地 拟 合 数据 , 但 这 不 是 重点 , 因为 这 不 是 一 个 统 
计 学 可 以 回答 的 问题 。 毕竟, 我 们 可 以 只 保留 两 个 点 , 而 将 其 他 数据 全 部 忽略 , 这 样 使 用 polyfit 
就 可 以 找 出 一 条 完美 拟 合 这 两 个 点 的 直线 。 绝 对 不 能 仅仅 因为 要 得 到 更 好 的 拟 合 而 丢弃 实验 数 
据 。" 在 这 里 ,我们 丢弃 了 最 右 侧 的 点 是 合理 的 ， 因 为 根据 胡 克 的 理论 ， 弹 签 是 具有 弹性 极限 的 。 
但 我 们 不 能 凭借 这 种 理由 丢弃 数据 中 其 他 的 点 。 














上 | 
0 12 14 16 





全 


















































DLL 














































































































@ 这 并 不 是 说 没有 人 会 这 样 做 。 
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18.2 ”弹丸 的 行为 


总 是 拉扯 弹 得 会 越 来 越 令 人 生 厌 ， 我 们 决定 使 用 弹 得 制造 一 种 可 以 发 射 强 
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弹性 极限 内 的 模型 























LE 九 的 装置 。" 使 用 











这 种 装置 向 发 射 点 30 码 ( 1080 英 寸 ) 之 外 的 目标 发 射 4 次 弹丸 。 在 每 一 次 发 射 中 ,我们 都 会 测量 出 
弹丸 距离 发 射 点 不 同 距离 时 的 高 度 。 发 射 点 与 目标 位 于 同一 高 度 , 在 测量 时 可 以 令 这 个 高 度 为 0.0。 
数据 保存 在 一 个 文件 中 ， 内 容 如 图 18-10 所 示 。 














为 4 次 实验 中 弹丸 在 相应 距离 时 的 高 度 。 所 有 数据 的 单位 都 是 英寸 。 





GD 向 弹丸 施加 力 后 ,部 














ti 可 以 将 它 发 射 到 空中 。 发 射 完成 之 后 ， 力 的 作 








Distance trial1 trial2 trial3 trial4 
1686 6.0 09.6 8.6 0.6 
1644 2.25 3:525 4.5 Gis 
1668 5.25 6.5 6.5 8.75 
972 过 < 人 ya 8.25 9.25 
936 8.75 9.25 9.5 16.5 
966 12.6 12.25 12.5 14.75 
864 13.75 16.0 16.06 16.5 
828 14.75 15.25 15;5 17x5 
792 Es 16.0 16.6 16.75 
756 17.6 17.0 17.5 19.25 
726 了 7 18.5 18.5 19.6 
546 19 .5 20.0 20.25 20.5 
366 18.5 18.5 19.6 19.6 
186 13.6 13.6 13.6 13.6 
9 09.6 9.6 90.6 6.0 
图 18-10 ”弹丸 实验 的 数据 


















































详细 介绍 实验 中 使 








] 的 发 射 装置 ， 只 要 知道 这 种 装置 很 危险 就 够 了 。 


第 一 列 为 弹丸 与 目标 之 间 的 距离 ， 其 他 各 列 


就 停止 了 。 出 于 公共 安全 的 考虑 ， 我 们 不 会 
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图 18-11 中 的 代码 可 以 绘制 出 弹丸 在 4 次 实验 中 的 平均 高 度 以 及 与 发 射 点 之 间 的 距离 。 代 码 还 
绘制 出 了 对 这 些 数据 点 的 最 佳 线性 拟 合 和 最 佳 二 次 拟 合 。( 如 果 你 忘记 了 列表 与 整数 相 乘 的 含 
义 ， 那 么 表达 式 [e]*len(distance) 会 生成 一 个 列表 ， 其 中 包含 len(distance) 个 0。) 











def getTrajectoryData(fileName): 

dataFile = open(fileName, 'r') 

distances = [] 

heights1，heights2，heights3，heights4 = [],[],[],[] 

dataFile.readline() 

for line in dataFile: 
d，h1，h2，h3，h4 = line.split() 
distances.append(float(d)) 
heights1.append(float(h1)) 
heights2.append(float(h2)) 
heights3.append(float(h3)) 
heights4.append(float(h4)) 

dataFile.close() 

return (distances，[heights1，heights2，heights3，heights4]) 


def processTrajectories(fileName): 

distances, heights = getTrajectoryData(fileName) 

numTrials = len(heights) 

distances = pylab.array(distances) 

# 生 成 一 个 数组 ， 用 于 存储 每 个 距离 的 平均 高 度 

totHeights = pylab.array([6]*len(distances)) 

for h in heights : 

totHeights = totHeights + pylab.array(h) 

meanHeights = totHeights/len(heights) 

pylab.title('Trajectory of Projectile (Mean of '\ 
+ str(numTrials) + ' Trials)') 

pylab.xlabel('Inches from Launch Point') 

pylab.ylabel('Inches Above Launch Point') 

pylab.plot(distances, meanHeights, 'ko') 

fit = pylab.polyfit(distances, meanHeights, 1) 

altitudes = pylab.polyval(fit, distances) 

pylab.plot(distances, altitudes, 'b', label = "Linear Fit') 

fit = pylab.polyfit(distances, meanHeights, 2) 

altitudes = pylab.polyval(fit, distances) 

pylab.plot(distances, altitudes, 'k:', label = 'Quadratic Fit') 

pylab.1legend() 





processTrajectories('launcherData.txt') 











图 18-11 绘制 弹丸 的 轨迹 


在 图 18-12 中 ,我 们 一 眼 就 可 以 看 出 ,很 明显 二 次 拟 合 要 远 远 优 于 线性 拟 合 。”( 二 次 拟 合 的 
左 侧 显得 不 那么 平滑 ， 应 为 我 们 只 绘制 出 与 测量 高 度 对 应 的 预测 高 度 ， 在 600 的 左 侧 只 有 很 少 几 

















Ba 


中 不 要 被 这 张 图 误导 ,认为 弹 刀 会 有 一 个 如 此 陡峭 的 上 升 角度 。 














为 图 中 纵 轴 和 横 轴 的 量度 不 同 , 所 以 才 是 这 个 样子 。 
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个 点 。) 但 是 ， 线 性 拟 合 有 多 差 ， 二 次 拟 合 又 有 多 好 呢 ? 
吉 射 的 弹 造 【4 条 弹道 的 平均 咯 径 ) 
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距离 扫 射 ? 点 的 英寸 数 





图 18-12 ”轨迹 图 


18.2.1 可 决 系数 


当 我 们 用 曲线 拟 合 数据 时 ,实际 上 是 找到 一 个 函数 , 将 自 变 量 (在 本 例 中 是 与 发 射 点 之 间 的 
水 平 距离 ,用 英寸 表示 ) 与 因 变 量 (在 本 例 中 是 与 发 射 点 之 间 的 垂直 距离 ， 也 用 英寸 表示 ) 的 预 
测 值 关 联 起 来 。 拟 合 优 度 也 就 是 预测 的 准确 度 。 回忆 一 下 , 拟 合 是 通过 最 小 化 均 方 误 差 而 得 到 的 ， 
这 说 明 我 们 可 以 通过 均 方 误差 来 评价 拟 合 优 度 。 这 种 方法 的 问题 在 于 ， 尽 管 均 方 误差 具有 下 界 
(0), 但 它 没有 上 界 。 这 意味 着 对 于 同一 数据 的 两 种 拟 合 ， 我 们 可 以 使 用 均 方 误差 来 比较 它们 的 
相对 优 度 ， 但 很 难 用 它 衡量 一 个 拟 合 的 绝对 优 度 。 

可 以 使 用 可 决 系数 计算 一 个 拟 合 的 绝对 优 度 ， 可 决 系数 通常 写作 R?。" 令 yj 为 第 i 个 观测 值 ， 
P 为 相应 的 模型 预测 值 ，y/ 为 观测 值 的 均值 ， 则 : 


a (六 一 DO 
3 (一 AD 


通过 比较 估计 误差 (分子 ) 和 原始 数据 本 身 的 变异 性 ( 分母 )，R* 可 以 表示 在 一 个 数据 集中 ， 
有 多 大 比例 的 变异 性 是 由 于 统计 模型 通过 拟 合 造成 的 。 评 价 线性 回归 模型 时 ，R* 的 值 总 是 位 于 0 
和 1 之 间 。 如 果 R=1， 模 型 就 是 对 数据 的 完美 拟 合 ; 如果 R*=0， 那 么 模型 预测 值 就 与 均值 周围 数 
据 的 分 布 方式 没有 任何 联系 。 

图 18-13 中 的 代码 简单 直接 地 实现 了 R? 的 计算 。 代 码 如 此 简洁 ， 要 归功 于 数组 操作 的 强大 能 
力 。 表 达 式 (predicted - measured)**2 先 从 一 个 数组 的 每 个 元 素 中 减 去 男 一 个 数组 中 的 相应 元 
素 ， 再 将 结果 数组 中 的 每 个 元 素 进行 平方 。 表 达 式 (measured - meanOFMeasured)**2 先 从 数组 
measured 的 每 个 元 素 中 减 去 一 个 标量 mean0FMeasured， 再 将 结果 数组 中 的 每 个 元 素 进行 平方 。 

































































































































































@ 可 决 系数 的 定义 有 很 多 种 ， 这 里 使 用 的 定义 用 来 评价 线性 回归 的 拟 合 质量 。 
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def rSquared(measured, predicted): 
"" "假设 measured 为 表示 测量 值 的 一 维 数组 
predicted 为 表示 预测 值 的 一 维 数组 
返回 可 决 系数 """ 
estimateError = ((predicted - measured)**2).sum() 
meanOfMeasured = measured.sum()/len(measured) 
variability = ((measured - meanOfMeasured)**2).sum() 
return 1 - estimateError/variability 











图 18-13 ”计算 R? 
在 函数 processTrajectories (参见 图 18-11 ) 中 的 pylab.plot 调 用 后 插入 代码 : 


print('RSquare of linear fit =', rSquared(meanHeights, altitudes)) 
和 |: 

print('RSquare of quadratic fit =', rSquared(meanHeights, altitudes)) 
会 输出 : 


RSquared of linear fit = 6.60177433285441 
RSquared of quadratic fit = 6.985765369287 


简单 地 说 ， 这 个 结果 告诉 我 们 ， 测 量 数据 中 只 有 不 到 2% 的 变异 性 可 以 用 线性 模型 来 解释 ， 
但 超过 98% 的 变异 性 可 以 由 二 次 模型 来 解释 。 


18.2.2 ”使 用 计算 模型 


既然 我 们 已 经 有 了 一 个 比较 好 的 数据 模型 ,就 可 以 使 用 这 个 模型 来 回答 一 些 与 原始 数据 相关 
的 问题 。 一 个 有 趣 的 问题 就 是 : 当 弹 丸 击 中 目标 时 , 它 的 水 平 速 度 是 多 少 ? 我 们 可 以 按照 下 面 的 
思路 设计 一 个 计算 模型 ,来 回答 这 个 问题 。 
(1) 我 们 知道 ， 决 定 弹丸 轨迹 的 公式 形式 为 ?= ax + bx +c， 也 就 是 说 ， 是 一 条 抛物 线 。 因 为 




































































以 称 这 个 距离 为 xMid。 那 么 ， 最 高 点 的 高 度 yPeak 可 以 由 公式 ypPeak= ua x xMid*+ bp xxmid+c 给 出 。 

(2) 如 果 和 忽略 空气 阻力 (请 记 住 ,没有 模型 是 完美 的 )， 就 可 以 计算 出 弹丸 从 yPeak 落 到 目标 
高 度 所 需 的 时 间 ， 因 为 这 只 与 重力 有 关 。 这 个 时 间 可 以 由 公式 t= V(2*yPeak)/8g 计算 得 出 。? 这 
也 是 弹丸 从 xMid 处 水 平 飞行 到 目标 所 需 的 时 间 ， 因 为 一 旦 击 中 目标 ， 它 就 停止 飞行 。 

(3) 给 定 从 xMid 处 到 达 目 标的 时 间 ， 我 们 可 以 很 容易 地 算出 在 这 段 时 间 内 弹丸 的 平均 水 平 速 
度 。 如 果 假 定 在 这 段 时 间 内 ,弹丸 在 水 平方 向 上 既 没 有 加 速 也 没有 减速 ,那么 就 可 以 使 用 这 个 平 
均 水 平 速度 作为 弹丸 击 中 目标 时 的 水 平 速度 的 估计 值 。 

图 18-14 实 现 了 这 种 估计 弹丸 水 平 速度 的 过 程 。” 












































Qa 这 个 公式 可 以 由 基本 定理 推导 出 来 ,但 更 容易 的 做 法 是 在 网 上 搜 一 下 ， 可 以 在 这 里 找到 : http://en.wikipedia.org/ 
wiki/Equations for a falling body。 
@) 弹丸 速度 的 垂直 分 量 也 很 容易 估算 ， 只 要 将 图 18-14 中 的 g 和 1t 相 乘 即 可 。 
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def getHorizontalSpeed(quadFit, minX, maxX): 


"" 假 设 quadFit 是 二 次 多 项 式 的 系数 
minX 和 maXxX 是 用 英寸 表示 的 距离 

返回 以 英尺 /秒表 示 的 水 平 速 度 """ 
inchesPerFoot = 12 
xMid = (maxX - minX)/2 
a,b,c = quadFit[6@], quadFit[1], quadFit[2] 
yPeak = a*xMid**2 + b*xMid + C 
g = 32.16*inchesPerFoot #accel. of gravity in inches/sec/sec 
t = (2*yPeak/g)**8.5 # 从 最 高 点 到 目标 高 度 所 需 时 间 ， 单 位 为 秒 
print('Horizontal speed ='， 

int(xMid/(t*inchesPerFoot)), 'feet/sec') 








将 这 行 代 码 getHorizontalspeed(fit，distances[-1]，distance[86]) 插 入 
图 18-11 ) 的 末尾 ,会 输出 以 下 结果 : 


Trajectories ( 





图 18-14 ”计算 弹丸 的 水 平 速度 








Horizontal speed = 136 feet/sec 




















以 上 我 们 采取 的 一 系列 步骤 是 一 种 通用 的 模式 : 
(1) 首先 进行 实验 ， 获 得 关于 实体 系统 行为 的 数据 ; 
(2) 然后 通过 计算 找 出 描述 系统 行为 的 模型 ， 并 对 模型 质量 进行 评价 ; 





G) 最 后 使 用 理论 分 析 ， 设 计 一 个 简单 的 计算 过 程 ， 推 导出 感 兴趣 的 模型 结果 。 























18.3” 拟 合 指数 分 布 数据 


polyfit 使 用 线性 回归 找 出 一 个 给 定 阶 数 的 多 项 式 ， 作 为 特定 数据 的 最 优 最 小 二 乘 拟 合 
果 数 据 可 以 直接 由 多 项 式 进 行 近似 , 那么 这 种 方法 效果 很 好 。 但 是 ， 有 时 这 是 不 可 能 的 。 举 例 来 
说 ,假设 有 一 个 简单 的 指数 增长 函数 y = 3*。 图 18-15 中 的 代码 使 用 一 个 五 阶 多 项 式 拟 合 了 函数 最 








初 的 10 个 点 ， 并 绘制 出 了 结果 ， 如 图 18-16 所 示 。 代 码 使 用 了 函数 pylab.arange(16)， 


一 个 数组 ， 其 中 包含 0~9 这 10 个 整数 。 人 参数 设 置 markeredgewidth = 2 设 定 了 标记 中 的 线 宽 。 




















vals = [] 
for i in Fange(16) : 

vals.append(3**i) 
pylab.plot(vals,'ko', label = 'Actual points ') 
xVals = pylab.arange(16) 
fit = pylab.polyfit(xVals, vals, 5) 
yVals = pylab.polyval(fit, xVals) 
pylab.plot(yVals, 'kx', label = 'Predicted points '， 

markeredgewidth = 2, markersize = 25) 

pylab.title('Fitting y = 3**x') 
pylab.legend(loc = 'upper left') 























图 18-15 ”使 用 多 项 式 曲线 拟 合 指数 分 布 





国 数 process 


它 会 返回 
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满足 y 二 3**x 









预测 的 点 


义 
XXXXXXX 











0 1 让 4 6 VW 二 
图 18-16” 拟 合 指数 分 布 


很 明显 , 对 于 这 些 数据 点 来 说 , 拟 合 的 效果 非常 好 。 但 是 , 我 们 看 一 下 模型 对 于 3 的 预测 值 。 
将 以 下 代码 : 
print('Model predicts that 3**20 is roughly', 


pylab.polyval(fit, [3**260])[06]) 
print('Actual value of 3**20 is', 3**20) 


添加 到 图 18-15 代 码 的 末尾 ， 会 输出 以 下 结果 : 


Model predicts that 3**20 is roughly 2.45478276372e+48 
Actual value of 3**20 is 3486784461 


天 哪 ! 尽管 polyfit 生 成 的 模型 能 够 拟 合 部 分 数据 , 但 它 显 然 不 是 一 个 好 模型 。 是 因为 5 不 是 
正确 的 阶 数 吗 ? 不 是 , 是 因为 没有 一 个 多 项 式 能 够 较 好 地 拟 合 指数 分 布 。 难 道 这 意味 着 我 们 不 能 
使 用 polyfit 来 为 指数 分 布 建立 模型 吗 ? 幸好 ， 不 是 这 样 的 ， 因 为 我 们 可 以 使 用 polyfit 找 出 一 
条 曲线 ， 来 拟 合 自 变 量 的 初始 值 和 因 变 量 的 对 数值 。 

考虑 这 个 序列 [1, 2, 4, 8, 16, 32, 64, 128, 256, 512]。 如 果 我 们 以 2 为 底 对 每 个 值 取 对 数 ， 就 可 以 
得 到 序列 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]， 这 是 个 线性 增长 的 序列 。 实 际 上 ， 如 果 一 个 函数 y= ftx) 表 现 出 
指数 增长 的 性 质 , 那么 fx) 的 对 数 (任意 底数 ) 就 是 线性 增长 的 。 可 以 通过 绘制 Y 轴 为 对 数 标 度 的 
指数 函数 将 这 种 性 质 表 示 出 来 。 以 下 代码 : 


xVals, yVals = [], [] 

for i in range(10): 
xVals.append(i) 
yVals.append(3**i) 

pylab.plot(xVals, yVals, 'k') 

pylab.semilogy() 


可 以 生成 图 18-17。 

对 指数 函数 取 对 数 可 以 得 到 一 个 线性 函数 , 利用 这 一 性 质 可 以 为 具有 指数 分 布 的 数据 集合 建 
立 模型 。 如 图 18-18 中 的 代码 所 示 ， 我 们 使 用 polyfit 找 出 一 条 曲线 来 拟 合 x 值 和 y 值 的 对 数 。 请 注 
意 , 我 们 使 用 了 一 个 新 的 Python 标准 库 模 块 math, 它 可 以 提供 10g 函 数 。 我 们 还 使 用 了 一 个 lambda 
表达 式 ， 参 见 5.4 市 。 
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图 18-17 


对 数 坐 标 图 中 的 指数 函数 








import math 


def createData(f, xVals): 
""" 假 设 f 是 一 个 单 参数 函数 
XVals 是 一 个 数组 ， 其 中 的 元 素 可 以 作为 f 的 参数 
返回 一 个 数组 ， 其 中 的 元 素 为 将 f 应 用 于 XVals 中 元 素 的 结果 。""" 
yVals = [] 
for i in xVals: 
yVals.append(f(xVals[i])) 
return pylab.array(yVals) 


def fitExpData(xVals, yVals): 
"" "假设 xVals 和 yVals 是 两 个 数值 型 数组 ,满足 yVals[i]=f(xVals(i))， 这 里 的 f 是 指数 池 数 。 
返回 a、b、base，,， 使 得 log(f(x)，base)==ax+b""" 
logVals = [] 
for y in yVals: 
logVals.append(math.log(y，2.6)) # 求 出 以 2 为 底 的 对 数值 
fit = pylab.polyfit(xVals, logVals, 1) 
return fit, 2.06 


xVals = range(16) 

f = lambda x: 3**x 

yVals = createData(f, xVals) 

pylab.plot(xVals, yVals, 'ko', label = 'Actual values') 

fit, base = fitExpData(xVals, yVals) 

predictedYVals = [] 

for x in xVals: 
predictedYVals.append(base**pylab.polyval(fit, x)) 

pylab.plot(xVals, predictedYVals, label = 'Predicted values') 

pylab.title('Fitting an Exponential Function') 

pylab.legend(loc = 'upper left') 

# 预 测 一 个 不 在 初始 数据 中 的 xX 值 

print('f(20) =', f(20)) 

print('Predicted value =', int(base**(pylab.polyval(fit, [206])))) 








图 18-18 使 用 polyfit 拟 合 指数 分 布 
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运行 这 段 代 码 ， 生 成 图 18-19， 其 中 实际 值 与 预测 值 是 基本 一 致 的 。 而 且 ， 当 我 们 使 用 一 个 
没有 用 来 拟 合 模型 的 值 (20 ) 测试 模型 时 ， 会 输出 : 


f(26) = 3486784461 
Predicted value = 34867844061 





满足 有 一 个 指数 函数 
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图 18-19 ” 拟 合 指数 函数 


这 种 使 用 polyfit 找 出 数据 模型 的 方法 有 个 适用 范围 ， 即 数据 之 间 的 联系 可 以 使 用 形式 为 
y= base”' “这 样 的 公式 来 描述 。 对 于 不 满足 这 个 条 件 的 数据 ， 这 种 方法 会 产生 错误 的 结 

举例 来 说 ， 我 们 可 以 使 用 以 下 代码 创建 yVals: 

f = lambda x: 3**x + Xx 
这 时 模型 做 出 的 预测 非常 差 ， 它 会 输出 : 


f(26) = 3486784421 
Predicted value = 2734637145 


18.4” 当 理论 缺失 时 


在 本 章 中 , 我 们 的 重点 在 于 介绍 理论 科学 、 实 验 科 学 和 计算 科学 之 间 的 相互 作用 。 但 有 些 时 
候 , 我 们 会 发 现 虽 然 自 己 手 里 有 很 多 有 价值 的 数据 , 但 几乎 没有 分 析 数 据 的 理论 知识 。 这 种 情况 
下 , 我 们 经 常 采取 的 方法 是 , 使 用 计算 技术 建立 一 个 能 够 拟 合 数据 的 模型 ,然后 逐渐 形成 相关 的 
理论 。 

在 理想 世界 中 ， 我 们 可 以 进行 完全 可 控 的 实验 ( 例如 在 弹簧 上 悬挂 重 物 )， 研 究 结果 ， 进 而 
回顾 性 地 构建 一 个 与 这 些 结果 一 致 的 模型 。 然 后 ， 再 进行 新 的 实验 ( 例如 在 同一 个 弹簧 上 悬挂 另 
一 个 重 物 )， 并 将 新 实验 的 结果 与 模型 预测 的 结果 进行 比较 。 

不 幸 的 是 ,在 很 多 情况 下 ,我 们 甚至 不 能 进行 可 控 的 实验 。 举 例 来 说 ， 假 设想 构建 一 个 研究 
利率 如 何 影响 股价 的 模型 ， 我 们 几乎 不 可 能 去 设 定 利率 ,然后 再 看 看 对 股价 有 何 影 响 。 但 从 另 一 
方面 说 ， 相 关 的 历史 数据 可 一 点 都 不 少 。 
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在 这 种 情况 下 ,我 们 可 以 将 现 有 数据 划分 为 训练 集 和 保留 集 ,保留 集 将 来 会 作为 测试 集 使 用 ， 
然后 再 进行 一 系列 实验 。 不 考虑 保留 集 ， 我 们 先 建立 一 个 可 以 解释 训练 集 的 模型 。 例 如 ， 为 训练 
集 数 据 找 出 一 条 具有 合理 的 尺 的 曲线 。 然 后 ,我 们 在 保留 集 上 测试 这 个 模型 。 多 数 情 况 下 ， 相 对 
于 保留 集 ， 这 种 模型 会 对 训练 集 拟 合 得 更 好 。 但 如 果 这 个 模型 的 确 很 好 , 那么 它 对 保留 集 也 应 该 
拟 合 得 很 好 ， 和 否则 这 个 模型 就 应 该 被 丢弃 。 

那么 应 该 如 何 选择 训练 集 呢 ? 我 们 当然 希望 训练 集 能 够 代表 整个 数据 集 。 一 种 方法 是 通过 随 
机 抽样 组 成 训练 集 ， 如 果 数 据 集 足 够 大 ， 那 么 这 种 方法 的 效果 非常 好 。 

另外 一 种 检验 模型 的 方法 与 上 面 略 有 不 同 , 它 使 用 从 原始 数据 中 随机 选择 的 多 个 子 集 来 训练 
模型 ,然后 检查 这 些 模 型 彼此 之 间 的 相似 程度 。 如 果 这 些 模型 非常 相似 ,就 说 明 模型 是 令 人 满意 
的 。 这 种 方法 称 为 交叉 验证 。 

在 第 19 章 和 第 22 章 ， 我 们 会 更 加 详细 地 讨论 交叉 验证 。 
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Xx 博士 发 明了 一 种 新 药 PED-X， 可 以 帮助 专业 自行 车 运动 员 骑 行 得 更 快 。 当 他 准备 推出 这 种 
新 药 时 ， 运 动员 坚持 认为 X 博 士 应 该 证 明 他 的 药 比 PED-Y 效 果 更 好 。PED-Y 是 运动 员 使 用 多 年 的 
一 种 药 , 但 已 经 被 禁 。 于 是 ，X 博 士 从 投资 者 那里 筹集 了 资金 ， 进 行 了 一 次 随机 试验 。 

他 说 服 了 200 名 专业 自行 车 运动 员 参 与 了 这 项 试验 ， 然 后 将 这 些 人 随机 分 成 两 组 : 试验 组 和 
对 照 组 ,试验 组 中 的 每 位 成 员 都 收 到 了 一 剂 PED-X, 而 对 照 组 中 的 成 员 被 告知 会 收 到 一 剂 PED-X， 
但 实际 上 收 到 的 是 PED-Y。 

每 名 自行 车 运动 员 都 被 要 求 尽 可 能 快 地 骑 行 50 英 里 。 每 一 组 的 完成 时 间 都 服从 正 态 分 布 。 试 















































验 组 的 平均 完成 时 间 为 118.79 分 钟 ， 对 照 组 的 平均 完成 时 间 为 120.17 分 钟 。 图 19-1 给 出 了 每 位 运 
动员 的 完成 时 间 。 
PED-X 试 验 
| @ 试验 组 (均值 = 118.79) | 
区 0 W_ 对 照 组 (均值 = 120.17) 
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图 19-1 ”自行 车 运动 员 的 完成 时 间 
X 博 士 洋洋 自得 ， 直 到 他 遇 到 了 一 位 统计 学 家 。 统 计 学 家 指出 ， 在 两 组 数据 中 ， 一 组 的 均值 
低 于 另外 一 组 是 很 平常 的 事情 ， 而 且 这 种 均值 之 间 的 差异 很 可 能 出 于 偶然 。 当 看 到 科学 家 脸 上 
那 副 垂 头 丧 气 的 表情 时 ， 统 计 学 家 答应 博士 ， 自 己 会 向 他 解释 如 何 检验 研究 成 果 在 统计 上 的 显 
著 性 。 
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19.1 检验 显著 性 


在 任何 实验 中 ,只 要 包括 从 总 体 随机 抽取 样本 的 步骤 ,就 会 存在 一 种 可 能 性 : 观测 到 的 效果 
仅仅 出 于 偶然 。 图 19-2 形 象 地 表示 了 2014 年 1 月 的 气温 与 1951~1980 年 1 月 平均 气温 之 间 的 差异 。 
现在 , 假设 你 在 地 球 上 随机 选择 20 个 地 点 , 构造 出 一 个 样本 , 然后 发 现 样本 的 平均 气温 变化 是 +1 
摄氏 度 。 那么 , 你 观测 到 的 这 种 平均 气温 的 变化 有 多 大 的 概率 是 因为 对 样本 地 点 的 随机 选择 造成 
的 ， 而 不 是 因为 全 球 气 温 变 暖 ? 统计 显著 性 就 是 用 来 回答 这 种 问题 的 。 
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图 19-2 ”1 月 气温 与 1951~1980 年 1 月 平均 气温 的 差异 ， 单 位 为 摄氏 度 " 


20 世 纪 初 ， 罗 纳 德 . 费 希 尔 提 出 了 一 种 使 用 统计 学 进行 假设 检验 的 方法 , 最 常用 于 计算 观测 
结果 出 于 偶然 性 的 概率 。 据 费 希 尔 所 说 ,他 之 所 以 会 发 明 这 种 方法 ,是 拜 穆 丽 尔 : 布 里 斯 托 ' 洛 
奇 博士 所 赐 。 穆 丽 尔 宣称 ,她 喝 奶 茶 时 可 以 分 辨 出 是 先 放 的 奶 还 是 先 放 的 茶 。 费 希 尔 向 穆 丽 尔 提 
出 了 挑战 ， 进 行 了 一 场 “奶茶 测试 ， 他 给 了 称 丽 尔 8 杯 奶茶 〈 4 杯 先 放 奶 ，4 杯 先 放 茶 )， 请 她 分 
辨 出 哪些 杯子 中 茶 是 先 于 奶 放 进去 的 。 穆 丽 尔 完美 地 完成 了 这 一 测试 。 然后， 费 希 尔 计算 出 了 她 


纯 赁 运气 分 辨 出 8 杯 奶茶 的 概率 。 正 如 我 们 在 15.4.4 节 中 看 到 的 ， =n. 也 就 是 说 ， 从 8 杯 奶 


茶 中 选择 4 杯 有 70 种 不 同 的 方法 。 因 为 这 70 种 组 合 中 只 有 一 种 对 应 着 4 杯 奶 茶 都 是 先 放 茶 , 所 以 费 
希 尔 得 出 ， 布 里 斯 托 : 洛 奇 博士 纯 任 运气 做 出 正确 选择 的 概率 是 1/70 守 0.014。 根据 这 个 结果 ,他 
得 出 结论 ， 穆 丽 尔 几乎 不 可 能 仅 任 运气 通过 这 次 测试 。 

费 希 尔 的 这 种 检验 显著 性 的 方法 可 以 总 结 如 下 。 

(1) 定义 一 个 原 假 设 和 一 个 备 择 假设 。 原 假设 表示 “实验 方法 ”没有 我 们 想 知道 的 效果 。 对 
于 “奶茶 测试 "， 原 假设 就 是 “ 布 里 斯 托 : 洛 奇 博士 根本 品尝 不 出 不 同 奶茶 之 间 的 区 别 ”。 备 择 假 
设 仅 当 原 假设 是 错误 的 时 候 才 成 立 , 例如 ,“ 布 里 斯 托 : 洛 奇 博士 可 以 品尝 出 奶茶 之 间 的 区 别 ”。? 




























































































@ 这 是 一 张 由 美国 航空 航天 局 提供 的 彩色 图 片 的 灰 度 版 本 。 
@) 在 费 希 尔 的 方法 中 ， 他 只 提出 了 原 假 设 。 备 择 假设 的 概念 是 之 后 由 耶 日 ， 奈 曼 和 艾 贡 “' 皮尔 逊 引入 的 。 
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(2) 理解 待 评价 样本 的 统计 学 假设 。 对 于 “奶茶 测试 "， 费 希 尔 假设 布 里 斯 托 : 洛 奇 博士 对 每 
一 杯 奶茶 都 可 以 做 出 独立 判断 。 

(3) 计算 相关 的 检验 统计 量 。 在 本 例 中 ,检验 统计 量 就 是 布 里 斯 托 : 洛 奇 博士 给 出 正确 答案 
的 可 能 性 。 

(4) 在 原 假 设 成 立 的 情况 下 ， 推 导出 检验 统计 量 的 概率 。 在 本 例 中 ， 就 是 仅 赁 运气 正确 找 出 所 
有 奶茶 的 概率 ， 也 就 是 0.014。 

(5) 确定 这 个 概率 是 否 足 够 小 到 可 以 使 你 放心 地 认为 原 假设 是 错 的 ， 即 拒绝 原 假设 。 这 个 能 使 
你 拒绝 原 假设 的 概率 要 事先 决定 好 ， 一 般 为 0.05 或 0.01。 

再 回 到 本 章 开头 的 例子 。 假设 试验 组 和 对 照 组 的 完成 时 间 分 别 是 从 无 限 的 PED-X 用 户 总 体 和 
PED-Y 用 户 总 体 的 完成 时 间 中 抽取 的 样本 , 那么 这 个 实验 的 原 假设 就 是 “这 两 个 总 体 的 均值 是 一 
样 的 ”。 也 就 是 说 , 试验 组 的 总 体 均值 与 对 照 组 的 总 体 均值 之 间 的 差异 为 0。 备 择 假设 是 “两 个 总 
体 的 均值 是 不 一 样 的 "， 即 均值 之 间 的 差 不 等 于 0。 

我 们 接 下 来 看 看 能 和 否 拒绝 原 假设 。 选 择 一 个 阔 值 w 作 为 统计 显著 性 ， 并 试图 证 明 : 如 果 总 体 
分 布 与 原 假设 一 致 ,那么 从 总 体 中 抽取 出 现 有 数据 的 概率 小 于 xc。 然后 , 我 们 就 可 以 在 置信 和 度 为 a 
的 情况 下 拒绝 原 假设 ， 接 受 概率 为 1-a 的 与 原 假设 相反 的 假设 。 

对 a 的 选择 会 影响 我 们 犯错 误 的 类 型 ,a 越 大 ,我 们 越 可 能 在 原 假设 为 真 的 情况 下 拒绝 原 假设 ， 
这 称 为 第 一 类 错误 。a 越 小 , 我 们 越 可 能 在 原 假设 为 假 的 情况 下 接受 原 假设 , 这 称 为 第 二 类 错误 。 

通常 ， 我 们 选择 a =0.05。 但 根据 出 现 错 误 的 严重 性 ，a 可 以 取 更 大 的 值 或 更 小 的 值 。 举 例 来 
说 ， 如 果 原 假设 是 “由 于 服用 PED-X 和 PED-Y 而 造成 的 过 早死 亡 率 没有 区 别 ”， 那 么 就 应 该 选择 
一 个 较 小 的 a， 比 如 0.01， 作 为 拒绝 原 假设 的 基准 ， 以 确定 一 种 药品 比 男 一 种 更 安全 。 男 一 方面 ， 
如 果 原 假设 是 “PED-X 和 PED-Y 的 味道 没有 区 别 ”， 那 么 我 们 就 可 以 放心 地 选择 一 个 更 大 的 a。” 

下 一 个 步 又 是 计算 检验 统计 量 。 最 常用 的 检验 统计 量 是 ! 统 计量 。! 统 计量 告诉 我 们 ， 以 标准 
误差 为 单位 时 ， 从 样本 数据 中 得 出 的 估计 值 与 原 假设 之 间 的 差异 有 多 大 。! 统 计量 越 大 ， 拒 绝 原 
假设 的 可 能 性 就 越 大 。 对 于 我 们 的 例子 ,! 统 计量 告诉 我 们 ,两 个 均值 的 差 ( 118.79- 120.17= -1.38 ) 
距离 0 有 多 少 个 标准 误差 。PED-X 样 本 的 ! 统 计量 为 -2.13165598142， 它 的 含义 是 什么 呢 ?” 我 们 应 
该 如 何 使 用 这 个 统计 量 呢 ? 

对 1 统计 量 的 使 用 方法 非常 类 似 于 在 计算 置信 区 间 时 对 标准 差 的 使 用 ， 我 们 会 说 距离 均值 有 
几 个 标准 差 (参见 15.4.2 节 )。 回忆 一 下 ,对 于 所 有 正 态 分 布 ， 某 个 值 位 于 均值 两 侧 固定 数量 的 标 
准 差 范围 内 的 概率 也 是 固定 的 。 对 于 ! 统 计量， 问题 要 复杂 一 些 ， 因 为 要 考虑 到 计算 标准 误差 的 
样本 的 数量 。 我 们 假设 ! 统 计量 服从 纷 布 ， 而 不 是 服从 正 态 分 布 。 

1 分 布 最 早 由 威廉 : 戈 塞 于 1908 年 提出 。 统 计 学 家 七 塞 为 亚 瑟 : 吉 尼 斯 父子 酿酒 厂 工作 。2 分 布 
实际 上 是 一 族 分 布 ， 因 为 分 布 的 形状 依赖 于 样本 的 自由 度 。 










































































































































































中 很 多 研究 者 (包括 本 书 作 者 ) 强烈 认为 ， 以 这 种 “拒绝 ”的 方式 发 布 统计 结果 是 不 合适 的 ， 更 合适 的 方式 是 通报 
实际 的 显著 性 水 平 ， 而 不 是 仅 做 出 “在 5% 的 水 平 上 拒绝 原 假设 ”这 样 的 声明 。 

@ 吉 尼 斯 酿酒 三 禁止 戈 塞 以 自己 的 名 字 发 表 论文 。 于 是 ， 戈 塞 使 用 笔名 “学 生 ” 于 1908 年 发 表 了 关于 分布 的 开创 性 
论文 “平均 数 的 机 误 ”"。 因 此 ， 这 个 分 布 经 常 被 称 为 “学 生 的 /分 布 ”。 
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自由 度 描述 了 导出 统计 量 所 用 的 独立 信息 量 。 我 们 通常 可 以 认为 自由 度 就 是 样本 中 独立 观 
测 的 数量 ， 样 本 从 总 体 中 抽取 而 出 ， 并 用 来 估计 总 体 的 某 些 统计 量 。 
/分 布 看 上 去 与 正 态 分 布 很 相似 ， 自 由 度 越 大 ， 越 接近 正 态 分 布 。 自 由 度 较 小 时 ， 相 对 于 正 
态 分 布 ，! 分 布 具有 明显 的 肥 尾 现象 。 当 自由 度 为 30 或 更 大 时 ，! 分 布 非常 接近 正太 分 布 。 
下 面 使 用 样本 方差 估计 总 体 方差 。 回 忆 一 下 









































> CA 


variance(X)= ”四 


所 以 样本 方差 为 : 
(100—200) + (200— 200)* + (300—200) 
3 

看 上 去 我 们 使 用 了 3 条 独立 信息 , 但 实际 不 是 。 分子 中 的 三 项 并 不 是 彼此 独立 的 ， 因为 所 有 3 
个 观测 都 被 用 来 计算 200 个 骑手 的 样本 均值 。 实 际 的 自由 度 为 2， 因 为 只 要 知道 均值 和 3 个 观测 中 
的 两 个 ， 第 三 个 观测 的 值 就 确定 了 。 

自由 度 越 大 ,样本 统计 量 能 够 代表 总 体 统计 量 的 概率 就 越 大 。 使 用 单个 样本 计算 1 统计 量 时 ， 
自由 度 等 于 样本 量 减 1， 因 为 计算 统计 量 时 要 使 用 样本 均值 。 如 果 使 用 了 两 个 样本 ,那么 自由 度 
就 是 两 个 样本 的 大 小 之 和 减 2>， 因 为 计算 1 统计 量 时 要 用 到 两 个 样本 的 均值 。 例 如 ， 对 于 
PED-X/PED-Y 实 验 ， 自 由 度 就 是 198。 

给 定 自由 度 之 后 ,我们 可 以 画图 表示 近似 的 t- 分 布 , 然后 看 看 计算 的 PED-X 样 本 的 ! 统 计量 位 
于 分 布 的 何 处 。 图 19-3 中 的 代码 完成 了 这 一 任务 ， 并 生成 了 图 19-4。 代 码 首先 使 用 函数 
scipy.random.standard_t 生 成 大 量 来 自 于 自由 度 为 198 的 分 布 的 值 ， 然 后 在 从 PED-X 样 本 中 计 
算出 的 ! 统 计量 及 其 相反 数 的 位 置 画 出 两 条 白 线 。 






















































































tstat = -2.13165598142 #t-statistic for PED-X example 

tDist = [] 

numBins = 1666 

for i in range(16666666 ) : 
tDist.append(scipy.random.standard t(198) ) 


pylab.hist(tDist, bins = numBins, 

weights = pylab.array(len(tDist)*[1.60])/len(tDist)) 
pylab.axvline(tStat, color = 'w') 
pylab.axvline(-tStat, color = 'w') 
pylab.title('T-distribution with 198 Degrees of Freedom') 
pylab.xlabel('T-statistic') 
pylab.ylabel('Probability') 











图 19-3 ”绘制 分布 





19.1 检验 显著 性 。 251 





自由 度 为 198 的 (分布 














! 统 计量 


图 19-4”! 统 计量 可 视 化 





如 果 以 下 两 个 条 件 同 时 成 立 : 
口 样本 可 以 代表 总 体 
口 原 假设 为 真 
那么 , 我 们 关注 的 是 直方 图 中 白 线 左右 两 侧 的 面积 , 这 两 个 面积 之 和 占 总 面积 的 比例 就 等 于 能 够 
得 到 像 观 测 值 这 样 极端 ， 甚 至 比 它 还 极端 的 统计 量 的 概率 。 

我 们 需要 计算 :分 布 左右 两 侧 的 尾部 面积 ， 原 因 在 于 ， 原 假设 是 “两 个 总 体 的 均值 相等 "。 所 
以 ， 如 果 试 验 组 的 均值 显著 大 于 或 者 显著 小 于 对 照 组 的 均值 ， 检 验 都 会 失败 。 

在 原 假设 成 立 的 前 提 之 下 , 能够 得 到 像 观测 值 这 样 极端 , 甚至 比 它 还 极端 的 统计 量 的 概率 称 
为 P- 值 。 对 于 PED-X 的 例子 ，P- 值 就 是 在 试验 组 和 对 照 组 的 总 体 均 值 相 等 的 前 提 下 ， 得 到 一 个 像 
观测 到 的 差异 那么 大 ， 甚 至 比 它 还 大 的 样本 均值 之 差 的 概率 。 

你 可 能 有 些 莫 名 其 妙 , P- 值 告诉 我 们 的 是 当 原 假设 成 立时 发 生 某 个 事件 的 概率 , 但 我 们 所 期 
望 的 则 是 原 假设 不 成 立 。 然而， 这 种 方法 与 经 典 的 “科学 方法 ”没有 什么 不 同 ， 它们 的 基础 都 是 
设计 一 些 实验 ， 以 驳 倒 某 个 假设 。 图 19-5 中 的 代码 为 我 们 的 两 个 样本 计算 并 输出 1 统计 量 和 P- 值 。 
库 函 数 stats.ttest_ind 可 以 执行 一 个 双 尾 双 样 本 t 检 验 ， 并 返回 1 统计 量 和 P- 值 。 将 参数 
equal_var 设 定 为 False， 说 明 我 们 不 知道 两 个 总 体 是 否 具有 同样 的 方差 。 


















































controlMean = sum(controlTimes)/len(controlTimes) 

treatmentMean = sum(treatmentTimes)/len(treatmentTimes) 

print('Treatment mean - control mean =",， 

treatmentMean - controlMean, 'minutes') 

twoSampleTest = stats.ttest_ ind(treatmentTimes, controlTimes, 
equal_var = False) 

print('The t-statistic from two-sample test is', twoSampleTest[0]) 

print('The p-value from two-sample test is', twoSampleTest[1]) 














图 19-5 ”计算 并 输出 1 统计 量 和 P- 值 
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运行 这 段 代码 ， 结 果 如 下 : 


Treatment mean - control mean = -1.3766616465162366 minutes 


The t-statistic from two-sample test is -2.131 


65598142 


The p-value from two-sample test is 6.6343726799815 


“ 耶 !”X 博 士 大 声 欢呼 ,“ 看 来 PED-X 不 比 PED-Y 效 果 好 的 概率 还 不 到 3.35%， 因 此 PED-X 有 效 











果 的 概率 就 大 于 96.5%。 我 的 收银 机 已 经 饥 渴 难耐 了 
读 到 了 19.2 节 。 


19.2 ”当心 P- 值 


!” 可 惜 , 他 的 狂喜 只 持续 了 一 会 儿 ， 因 为 他 


P- 值 的 含义 很 容易 被 误解 ， 它 经 常 被 认为 是 原 假设 为 真 的 概率 ， 但 实际 上 不 是 。 
原 假设 类 似 于 英美 刑事 司法 制度 中 的 被 告 人 。 这 种 制度 基于 “无 罪 推定 ”的 原则 , 也 就 是 说 ， 





只 要 不 能 证 明 被 告 有 罪 , 那 他 就 是 无 罪 的 。 类 似 地 ， 














我 们 也 假定 原 假设 为 真 ， 除 非得 到 足够 的 相 








反 证 据 。 在 一 次 审判 中 ,陪审 团 可 以 判定 被 告 人 人 “有罪” 或 “无 罪 ”。“ 无 罪 ” 判 决意 味 着 没有 足 











够 的 证 据 能 说 服 障 审 团 认为 被 告 在 “排除 合理 怀疑 ” 





的 原则 下 是 有 罪 的 ", 可 以 认为 它 相当 于 “无 








法 证 明 有 罪 ”。“ 无 罪 ” 判 决 并 不 意味 着 有 足够 的 证 据说 服 陪审 团 认为 被 告 人 是 无 谱 的 ， 如 果 有 了 
新 的 证 据 ， 这 个 判决 也 与 陪审 团 会 做 出 何 种 结论 无 关 。 可 以 将 P- 值 认为 是 陪审 团 的 一 个 判决 ， 判 
决 依据 的 “排除 合理 怀疑 ”原则 对 应 着 选择 一 个 非常 小 的 a 值 , 证 据 就 是 用 来 构造 统计 量 的 数据 。 























如 果 P- 值 很 小 ， 就 意味 着 在 原 假设 为 真 的 情况 下 ,得 到 特定 样本 的 可 能 性 很 小 。 这 类 似 于 陪 


审 团 认 为 ， 如 果 被 告 是 无 率 的 ， 那么 得 到 现 有 哇 堂 证 供 的 可 能 性 非常 小 ， 因 此 会 做 出 “有 罪 ” 的 





























判决 。 当 然 , 这 并 不 意味 着 被 告 确实 有 罪 , 可 能 陪审 团 得 到 的 是 伪证 。 类 似 地 ,得 到 一 个 较 小 的 


























P- 值 可 能 确实 因为 原 假设 是 错 的 ， 也 可 能 仅仅 因为 样本 不 能 代表 其 来 自 的 总 体 ， 也 就 是 说 , 证 据 

















是 误导 人 的 。 











不 出 所 料 ，X 博 士 坚定 地 宣称 他 的 实验 证 明了 原 假设 可 能 是 错 的 。Y 博 士 则 坚持 认为 较 小 的 


























P- 值 是 由 于 样本 缺乏 代表 性 , 并 出 资 进行 了 男 一 次 后 


后 ， 代 码 输出 结果 为 : 


] 样 的 实验 。 使 用 她 的 实验 样本 计算 出 统计 量 


Treatment mean - control mean = 86.1766912816 minutes 
The t-statistic from two-sample test is -6.274669731618 
The p-value from two-sample test is 6.783968632676 


这 个 P- 值 差不多 比 X 博 士 的 实验 中 得 到 的 P- 值 大 





24 倍 ， 并 且 因为 它 明显 大 于 0.5， 所 以 没有 任 








何 理由 质疑 原 假设 。 真 让 人 一 头 雾 水 。 没 关系 ， 我 们 会 弄 个 水 落石 出 。 





你 可 能 早 就 知道 了 ， 这 不 是 个 真实 的 故事 。 毕 竞 ,“ 自 行车 运动 员 服 用 提高 成 绩 的 药物 ”这 
种 说 法 令 人 难以 置信 。 实 际 上 ， 实 验 样本 是 由 图 19-6 中 的 代码 生成 的 。 




















加 “排除 合理 怀疑 ”这 个 原则 意味 着 主流 社会 相信 ， 在 刑事 审判 中 ， 第 一 类 错误 (将 无 罪 的 人 判 为 有 罪 ) 的 危害 远 
远大 于 第 二 类 错误 (将 有 罪 的 人 判 为 无 罪 ) 在 民事 案件 中 ,遵循 的 原则 是 “优势 证 据 "， 这 意味 着 主流 社会 认为 ， 









































此 时 两 种 错误 是 同样 有 害 的 。 
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treatmentDist = (119.5，5.6) 

controlDist = (1206, 4.06) 

sampleSize = 166 

treatmentTimes, controlTimes = [], [] 

for s in range(sampleSize): 
treatmentTimes.append(random.gauss(treatmentDist[8], 

treatmentDist[1])) 
controlTimes.append(random.gauss(controlDist[08], 
controlDist[1])) 











图 19-6 ”生成 样本 的 代码 


因为 这 个 实验 只 涉及 计算 ， 所 以 我 们 可 以 将 它 执行 多 次 ， 得 到 多 个 不 同样 本 。 我 们 生成 
了 10 000 对 样本 (试验 组 和 对 照 组 为 一 对 )， 并 绘制 了 P- 值 的 概率 ， 得 到 图 19-7。 


实际 分 布 的 P- 值 





均值 = 0.4144 中 间 值 = 0.3716 
小 于 0.05 的 结果 = 0.1164 











0.4 0.6 
P- 值 


图 19-7 P- 值 的 概率 
































惊 小 怪 。 男 一 方面 , 第 二 次 实验 得 到 一 个 截然 不 同 的 结果 也 很 正常 。 令 我 们 感到 惊奇 的 是 ,在 已 
经 知道 两 个 分 布 均值 确实 不 同 的 情况 下 ,得 到 在 5% 的 水 平 下 显著 的 结果 的 概率 只 有 11.6%。 在 多 
于 88% 的 情况 下 ， 我 们 都 不 能 在 5% 的 水 平 下 拒绝 错误 的 原 假设 。( 如 果 将 样本 量 提高 到 2000， 那 
么 不 能 拒绝 错误 的 原 假设 的 概率 就 只 有 6%。 ) 

能 否 真 正 恰 当地 拒绝 原 假设 ,只 看 P- 值 是 靠不住 的 。 所 以 在 很 多 科学 文献 中 ,实验 结果 不 能 
得 到 其 他 科学 家 的 重 现 。 还 有 一 个 问题 就 是 ， 研 究 动 力 ( 样本 量 ) 和 统计 发 现 的 可 靠 性 之 间 , 存 
在 着 很 强 的 联系 。” 
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为 什么 如 此 多 的 研究 都 动力 不 足 呢 ? 因为 如 果 我 们 真 的 使 用 人 类 进行 实验 的 话 (不 是 通过 模 
拟 )， 那 么 抽取 一 个 2000 人 样本 的 成 本 会 是 100 人 样本 的 20 倍 。 

样本 量 的 问题 是 统计 学 中 频率 论 方法 的 一 个 内 在 属性 。 第 20 章 会 介绍 男 外 一 种 方法 , 它 会 试 
图 解决 这 个 问题 。 


19.3 单 尾 单 样本 检验 


本 章 之 前 都 在 介绍 双 尾 双 样 本 检验 ， 下 面 使 用 单 尾 单 样本 检验。 

先 看 一 下 单 尾 双 样 本 检验 。 在 对 PED-X 和 PED-Y 的 相对 效果 的 双 尾 检验 中 ， 我 们 考虑 了 3 种 
情况 : (D) 它 们 具有 同样 的 效果 ; (2)PED-X 比 PED-Y 的 效果 更 好 ; (3)PED-Y 比 PED-X 的 效果 更 好 。 
我 们 的 目标 是 拒绝 原 假设 ( 即 第 一 种 情况 ), 方法 是 证 明了 如 果 原 假设 为 真 , 那么 PED-X 和 PED-Y 
的 样本 均值 基本 不 可 能 出 现 观测 到 的 那么 大 的 差异 。 

然而 ,假设 PED-X 的 价格 明显 比 PED-Y 便 宜 。 为 了 开拓 市 场 ，X 博 士 只 需 表明 PED-X 的 效果 
至 少 不 比 PED-Y 的 效果 差 。 证 明 这 个 结论 的 一 种 方法 是 ,拒绝 “两 个 均值 相等 ”或 “PED-X 的 均 
值 更 大 ”等 假设 。 请 注意 ， 这 个 假设 严格 弱 于 均值 相等 的 假设 。( 假设 A 严格 弱 于 假设 B， 那么 只 
要 B 为 真 A 就 为 真 ， 反 之 则 不 然 。) 

要 完成 这 个 任务 ,首先 使 用 图 19-5 中 的 代码 对 初始 的 原 假设 进行 一 次 双 样 本 检验 。 代 码 会 输 
出 以 下 结果 : 

Treatment mean - control mean = -1.37666164651 minutes 


The t-statistic from two-sample test is -2.13165598142 
The p-value from two-sample test is 6.6343726799815 


这 使 我 们 可 以 在 大 约 3.5% 的 水 平 上 拒绝 原 假设 。 

那么 更 弱 的 假设 呢 ? 再 看 一 下 图 19-4。 我 们 观察 到 ， 在 原 假设 成 立 的 前 提 下 ， 直 方 图 中 白 线 
左右 两 侧 的 面积 之 和 占 总 面积 的 比例 等 于 能 够 得 到 像 观 测 值 这 样 极 端 , 甚至 比 它 还 极端 的 统计 量 
的 概率 。 然而 , 要 拒绝 更 弱 一 些 的 假设 , 则 不 需要 考虑 左 侧 尾 部 中 的 面积 , 因为 它 对 应 着 “PED-X 
比 PED-Y 更 有 效 ”( 一 个 负数 时 间 差 别 ), 而 我 们 感 兴 趣 的 只 是 拒绝 “PED-X 效 果 更 差 ” 这 一 假设 。 
也 就 是 说 ， 可 以 进行 单 尾 检 验 。 

因为 分 布 是 对 称 的 ， 所 以 要 得 到 单 尾 检 验 的 P- 值 ， 只 需 将 双 尾 检验 的 P- 值 一 分 为 二 即 可 。 所 
以 , 单 尾 检验 的 P- 值 是 0.01718603999075。 这 使 我 们 可 以 在 大 约 1.7% 的 水 平 上 拒绝 更 弱 的 假设 ， 
使 用 双 尾 检验 是 不 能 达到 这 个 水 平 的 。 

因为 单 尾 检验 在 测试 实验 效果 方面 更 有 力 , 所 以 只 要 假设 是 关于 某 个 效果 的 方向 时 ， 人 们 更 
喜欢 使 用 单 尾 检验 。 但 这 通常 不 是 一 个 好 方法 ,只 有 未 检验 的 方向 上 缺少 效果 造成 的 影响 可 以 忽 
略 时 ， 才 适合 使 用 单 尾 检验 。 

下 面 看 一 个 单 样本 检验 。 假 设 在 有 了 使 用 PED-Y 的 多 年 经 验 之 后 ， 人 们 公认 使 用 PED-Y 的 运 
动员 完成 30 英 里 路 程 的 平均 时 间 为 120 分 钟 。 为 了 揭示 PED-X 是 否 与 PED-Y 的 效果 不 同 ， 我 们 可 
以 检验 这 个 原 假设 ， 即 PED-X 单 样本 的 平均 时 间 等 于 120 分 钟 。 我 们 可 以 使 用 函数 scipy .stats. 
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ttest_1samp 完 成 这 一 检验 ， 这 个 函数 的 参数 包括 一 个 单 样本 和 一 个 用 来 做 比较 的 总 体 均值 ， 它 
返回 一 个 元 组 ， 其 中 包含 了 统计 量 和 P- 值 。 例 如 ， 如 果 在 图 19-5 中 代码 的 末尾 添加 如 下 代码 : 


oneSampleTest = stats.ttest 1lsamp(treatmentTimes, 1206) 
print('The t-statistic from one-sample test is'，oneSampleTest[6]) 
print('The p-value from one-sample test is', oneSampleTest[1]) 


会 输出 : 


The t-statistic from one-sample test is -2.32665745939 
The p-value from one-sample test is 6.6226215196873 


这 个 P- 值 要 小 于 双 尾 双 样 本 检验 的 P- 值 ， 这 并 不 奇怪 。 因 为 我 们 的 前 提 假 定 是 两 个 均值 中 的 
一 个 是 已 知 的 ， 这 就 消除 了 一 些 不 确定 性 。 

那么 , 这 些 工作 都 完成 之 后 ,在 对 PED-X 和 PED-Y 的 统计 分 析 之 中 , 我 们 得 到 了 什么 呢 ? 尽 
管 PED-X 和 PED-Y 的 使 用 者 在 预期 表现 上 的 确 存 在 差异 , 但 如 果 PED-X 和 PED-Y 的 使 用 者 样本 数 
量 有 限 , 则 无 法 保证 揭示 出 这 一 差异 。 而且， 因为 预期 均值 之 间 的 差异 很 小 ( 不 到 0.5 个 百分点 )， 
所 以 像 X 博 士 那样 的 实验 ( 每 组 100 位 骑手 ) 不 太 可 能 找到 足够 的 证 据 ,使 我 们 在 95% 的 置信 水 平 
上 认为 均值 之 间 存 在 差异 。 在 95% 的 置信 水 平 上 ,使 用 单 尾 测试 可 以 增加 获得 统计 上 显著 的 结果 
的 可 能 性 ， 但 这 样 做 是 有 误导 性 的 ， 因 为 我 们 没有 任何 理由 假定 PED-X 的 效果 不 次 于 PED-Y。 


19.4 ”是否 显著 


在 过 去 的 几 年 中 ， 林 赛 和 约翰 在 游戏 《单词 接龙 》 上 花费 了 大 量 时 间 。 他 们 两 个 人 一 共 玩 了 
1273 次 ， 林 赛 赢 了 666 次 ， 她 忍 不 住 自 夸 道 :“ 这 个 游戏 我 比 你 玩 得 好 。” 但 约翰 认为 林 赛 的 话 完 
全 就 是 一 派 胡言 ， 对 方 赢 得 多 只 是 〈 也 可 能 应 该 是 ) 完全 凭借 好 运气 。 

约翰 最 近 读 了 一 本 关于 统计 学 的 书 , 他 建议 使 用 如 下 方法 找 出 真相 , 看 看 是 否 有 理由 将 林 赛 
在 游戏 上 的 成 功 归 因 于 她 智慧 的 头脑 。 

口 将 1273 次 游戏 中 的 每 一 次 都 当 作 一 次 实验 ， 如 果林 赛 是 胜利 者 ， 就 返回 1 ， 否 则 返回 0; 
口 选择 原 假设 为 : 这 些 实验 的 均值 为 0.5; 

口 对 这 个 原 假 设 执行 一 次 双 尾 单 样本 检验 。 

他 运行 了 以 下 代码 : 

numGames = 1273 

lyndsayWins = 666 

outcomes = [1.6]*lyndsayWins + [68.6]*(numGames-lyndsayWins) 


print('The p-value from a one-sample test is'， 
stats.ttest_1samp(outcomes，6.5)[1]) 






















































































输出 : 
The p-value from a one-sample test is 8.6982265871244 
于 是 ,约翰 宣布 ， 林 赛 在 获胜 次 数 上 的 优势 在 5% 的 水 平 上 并 不 显著 。 
林 赛 根本 没有 学 过 统计 学 ,但 她 读 了 本 书 的 第 16 章 ， 所 以 也 毫 不 示弱 。“ 我 们 来 一 次 蒙特 卡 
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罗 模 拟 吧 ”， 





她 建议 ， 并 且 给 出 了 图 19-8 中 的 代码 。 








numGames = 1273 
lyndsayWins = 666 
numTrials = 16666 
atLeast = 0 
for t in range(numTrials): 
Lwins = 6 
for g in range(numGames ) : 
if random.random() < 8.5: 
LWins += 1 
if LWins >= lyndsayWins: 
atLeast += 1 
print('Probability of result at least this', 
"extreme by accident =', atLeast/numTrials) 








林 赛 的 代码 运行 后 ， 输 出 了 以 下 结果 : 


图 19-8 ” 林 赛 的 游戏 模拟 

















Probability of result at least this extreme by accident = 8.6491 
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于 是 ， 林 赛 宣布 ， 约 翰 的 统计 检验 纯 属 捏造 ， 她 在 获胜 次 数 上 的 优势 在 5% 的 水 平 上 是 统计 显著 


的 。 








“不 , ”约翰 耐心 地 解释 道 ,“ 你 的 模拟 才 是 错 的 。 因 为 它 假设 了 你 玩 得 更 好 ， 而 且 相 当 于 进 
行 了 一 次 单 尾 检验 。 模 拟 的 内 层 循 环 有 问题 。 你 应 该 进行 双 尾 检验 ,看 看 在 模拟 中 是 否 我 们 之 一 
可 以 至 少 赢 666 次 ， 就 像 你 实际 赢得 那样 。” 然 后 ， 约 翰 给 出 了 











图 19-9 中 的 模拟 代码 。 








numGames = 1273 
lyndsayWins = 666 
numTrials = 16666 
atLeast = 6 
for t in range(numTrials): 
LWins, JWins = 6, 0 
for g in range(numGames): 
if random.random() < 8.5: 
LWins += 1 
else: 
JWins += 1 


atLeast += 1 





if LNins >= lyndsayWins or JWins >= lyndsayWins: 


print('Probability of result at least this', 
"extreme by accident =', atLeast/numTrials) 








图 19-9 ”正确 的 游戏 模拟 


约翰 的 模拟 代码 输出 了 : 
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Probability of result at least this extreme by accident = 6.6986 


“这 不 就 是 我 的 双 尾 检验 的 结果 吗 1” 约 翰 欢 呼 雀跃 ， 林 赛 的 反应 则 不 够 淑女 。 


19.5 哪个 N 


一 位 教授 想 知道 学 生 的 成 绩 是 否 与 到 堂 听课 有 关 。 他 找 了 40 名 大 一 新 生 , 给 每 个 人 发 了 一 个 
脚 环 ， 这 样 他 就 可 以 掌握 每 个 人 的 行踪 。 其 中 一 半 学 生 被 禁止 去 任何 课堂 听课 "， 另 一 半 学 生 则 
被 要 求 必 须 去 课堂 听课 ?。4 年 之 后 ， 每 个 学 生 都 上 了 40 门 课 ， 每 组 学 生 都 有 800 个 成 绩 。 

有 了 这 两 个 大 小 为 800 的 样本 ， 教 授 对 它们 的 均值 进行 了 一 次 双 尾 ! 检 验 ，P- 值 大 约 是 0.01 。 
这 使 教授 非常 失望 , 他 本 来 希望 课堂 教学 不 会 有 统计 上 的 显著 效果 一 一 这 样 他 为 了 去 海滩 度假 而 
取消 讲课 就 不 会 有 那么 大 的 负 罪 感 了 。 带 着 绝望 的 心情 ,他 看 了 一 眼 两 个 小 组 的 平均 GPA， 发现 
只 有 很 小 的 差别 。 他 非常 证 异 ， 如 此 小 的 均值 差别 怎么 会 有 这 种 显著 性 水 平 呢 ? 

当 样 本 足够 大 时 ， 即 使 一 个 很 小 的 效果 在 统计 上 也 可 能 是 高 度 显 著 的 。 也 就 是 说 ，N 非 常 重 
要 。 图 19-10 绘 制 了 使 用 不 同样 本 量 进行 1000 次 试验 后 的 平均 P- 值 。 对 于 每 个 样本 量 的 每 次 试验 ， 
我 们 都 使 用 两 个 样本 ,这 两 个 样本 都 来 自 标准 差 为 5 的 高 斯 分 布 ， 一 个 样本 均值 为 100， 另 一 个 样 
本 均值 为 100.5。 平 均 P- 值 随 着 样本 量 的 增加 而 线性 减 小 。 当 样本 量 达到 1500 左 右 时 ，0.5% 的 均 
值 差别 就 一 直 在 5% 的 水 平 上 表现 出 统计 上 的 显著 性 ; 当 样本 量 超过 2600 时 , 显著 性 水 平 达到 1%。 
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标准 差 = 5 时， 均值 为 100 和 100.5 的 高 斯 分 布 





= 均值 P- 值 























上 1 1 1 1 
0 500 1000 1500 2000 2500 3000 


样本 量 
图 19-10 ”样本 量 对 P- 值 的 影响 
回顾 前 面 的 例子 。 教 授 在 他 的 研究 中 选择 样本 量 为 800， 这 有 充分 的 理由 吗 ? 换 句 话说 ， 
个 小 组 中 有 20 个 学 生 , 但 这 800 个 成 绩 真 的 是 独立 的 吗 ? 恐怕 不 是 。 每 个 样本 中 有 800 个 成 绩 ,， 但 
只 有 20 个 学 生 , 每 个 学 生 的 40 门 成 绩 不 应 该 是 独立 的 。 毕 竟 有 些 学 生 的 成 绩 一 贯 很 好 ， 而 有 些 学 
生 的 成 绩 则 总 令 人 失望 。 


























中 应 该 
@ 应 该 


* 学 生 的 学 费 打 折 ， 可 惜 没有 。 
学 生发 点 奖学金 ， 可 惜 也 没有 。 


上 


给 这 
给 这 些 
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教授 决定 换 种 方法 来 处 理 这 些 数 据 。 他 计算 出 了 每 个 学 生 的 GPA， 然后 使 用 这 两 个 大 小 为 20 


的 新 样本 进行 了 一 次 双 尾 ! 检 验 ， 这 次 的 P- 值 大 约 为 0.3。 这 下 教授 感觉 好 多 了 。 


19.6 ”多 重 假设 





第 17 章 介绍 了 从 波士顿 马拉松 数据 中 进行 抽样 的 方法 。 图 19-11 中 的 代码 读 取 2012 年 的 比赛 
数据 ,然后 对 几 个 国家 的 女 选 手 的 平均 完成 时 间 进 行 检验 ， 看 看 是 否 具有 统计 上 的 显著 差异 。 代 




















码 中 使 用 了 图 17-2 定 义 的 getBMData 函 数 。 





data = getBMData('bm_ results2812.txt') 
countriesToCompare = ['BEL', 'BRA', 'FRA', 'JPN', 'ITA'] 
# 建 立 从 国家 到 女 选 手 完成 时 间 的 映射 
countryTimes = {} 
for i in range(len(data['name'])): #for each racer 
if data['country'][i] in countriesToCompare and\ 
data['gender'][i] == 'F': 
try: 


except KeyError: 


# 使 用 < 来 比较 ， 而 不 是 使 用 1!=， 这 样 两 两 比较 只 进行 一 次 
for c1 in countriesToCompare: 
for c2 in countriesToCompare: 


pVal = stats.ttest_ind(countryTimes[c1]， 
countryTimes[c2]， 
equal_var = False)[1] 
if pVal < 6.65: 
print(c1, 'and', c2, 
"have significantly different means,', 
"p-value ="', round(pVal, 4)) 





countryTimes[data['country'][i]].append(data[ 'time'][i]) 


countryTimes[data['country'][i]l]] = [data['time'][i]] 


if cl < c2: # < rather than != so each pair examined once 














图 19-11 ”比较 选 定 国家 的 平均 完成 时 间 
运行 这 段 代码 ， 会 输出 以 下 结果 : 


ITA and JPN have significantly different means, p-value = 6.625 








看 上 去 ， 意 大 利和 日 本 都 可 以 宣布 本 国 的 女 选手 比 对 方 跑 得 更 快 。 "但 是 ， 











这 个 结论 非常 苍 


白 无 力 。 尽 管 一 组 选手 的 平均 完成 时 间 确 实 比 男 一 组 少 , 但 是 样本 量 (20 和 32 ) 太 小 了 ， 可 能 代 


表 不 了 每 个 国家 的 女子 马拉松 运动 员 的 能 力 。 





更 重要 的 是 ,我 们 的 实验 方法 是 有 问题 的 。 我 们 检验 了 10 个 原 假设 ( 每 两 个 




















国家 之 一 )， 


Qz 到底 哪个 国家 的 女 选手 更 快 , 从 { 令 计 量 的 符号 就 可 以 很 容易 地 知道 。 但 为 了 不 冒犯 本 书 的 潜在 购买 者 , 我 才 不 会 





说 出 来 呢 。 
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然后 发 现 其 中 有 1 个 可 以 在 5% 的 水 平 上 被 拒绝 。 这 样 ， 我 们 实际 上 是 在 检验 这 个 原 假设 :“ 这 
些 国家 两 两 相 比 ， 女 子 马 拉 松 运动 员 的 平均 完成 时 间 是 一 样 的 。” 这 个 原 假设 被 拒绝 了 固然 好 ， 
但 和 拒绝 “意大利 和 日 本 的 女子 马拉松 运动 员 速 度 一 样 ”的 原 假设 相 比 ， 拒 绝 这 个 假设 的 意义 
是 不 同 的 。 

图 19-12 中 的 例子 可 以 更 明显 地 说 明 这 个 问题 。 在 本 例 中 ,我们 从 同一 总 体 中 抽取 出 20 对 样 
本 , 每 个 样本 的 样本 量 都 是 200”， 并 对 每 一 对 样本 都 进行 检验 , 看 看 样本 均值 在 统计 上 是 否 具 有 
差异 。 

































































numHyps = 26 
sampleSize = 36 
population = [] 
for i in range(5666): #Create large population 
population.append(random.gauss(86，1)) 
samplels，sample2s = [], [] 
for i in range(numHyps): #Generate many pairs of small sanples 
sample1ls.append(random.sample(population, sampleSize)) 
sample2s.append(random.sample(population, sampleSize)) 
#Check pairs for statistically significant difference 
numSig = 6 
for i in range(numHyps): 
if scipy.stats.ttest_ ind(samplels[i], sample2s[i])[1] < 86.65: 
numSig += 1 
print('Number of statistically significant (p < 6.65) results = '， 
numSig) 

















图 19-12 ”检验 多 重 假设 
因为 样本 来 自 同一 总 体 , 所 以 我 们 知道 , 原 假设 为 真 , 但 运行 这 段 代码 时 , 会 输出 以 下 结果 : 


Number of statistically significant (p < 6.65) results = 1 
说 明 根 据 某 一 对 样本 的 检验 结果 ， 我 们 可 以 拒绝 原 假设 。 

不 用 太 过 惊奇 ， 回 忆 一 下 ，0.05 的 P- 值 意味 着 在 原 假设 为 真 的 前 提 下 ， 得 到 一 个 像 这 对 样本 
的 均值 差异 那么 大 ,或 者 比 它 更 大 的 均值 差异 的 概率 为 0.05。 因 此 ， 当 我 们 检验 20 对 样本 时 ,其 
中 至 少 有 一 对 的 均值 在 统计 上 具有 显著 差异 , 这 一 点 都 不 奇怪 。 将 相似 的 实验 执行 多 次 ,然后 精 
心 挑选 出 对 你 有 利 的 结果 ， 这 种 行为 说 好 听 点 叫 作 “敷衍 ”， 但 只 要 稍微 较真 一 点 就 是 另外 一 种 
说 法 了 。 
再 回 到 波士顿 马拉松 实验 。 我 们 通过 检验 来 确定 是 否 可 以 拒绝 原 假设 , 即 10 对 样本 的 均值 没 
有 差异 。 当 进行 包括 多 重 假设 的 实验 时 ,最 简单 也 最 稳妥 的 方法 称 为 邦 费 罗 尼 校正 法 。 这 种 方法 
的 原理 非常 简单 : 同时 检验 有 m 个 假设 的 假设 族 时 ,保持 一 个 合适 的 族 系 误差 率 的 方法 是 ,在 
lm*a 的 水 平 上 检验 每 个 独立 的 假设 。 如 果 使 用 邦 费 罗 尼 校正 法 在 a= 0.05 的 水 平 上 检验 意大利 和 










































































g 在 代码 中 ， 实 际 的 样本 量 为 30。 一 一 译 者 注 
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日 本 选手 之 间 的 差异 是 否 显著 ， 就 应 该 看 看 P- 值 是 否 小 于 0.05/10, 也 就 是 0.005。 这样 的 话 ,， 差异 
就 是 不 显著 的 。 

如 果 要 进行 的 检验 非常 多 , 或 者 这 些 检验 中 使 用 的 检验 统计 量 之 间 存在 正 相 关 , 那么 邦 费 罗 
尼 校 正法 就 相当 保守 了 (也 就 是 说 ， 它 经 常会 在 应 该 拒绝 原 假设 的 情况 下 接受 原 假设 )。 另 外 一 
个 问题 是 ， 对 于 “假设 族 ” 这 个 概念 ， 现 在 还 没有 一 个 公认 的 定义 。 很 明显 ， 由 图 19-12 中 的 代 


老 本 术 


码 生 成 的 假设 之 间 是 相关 的 ， 所 以 必须 进行 校正 。 但 有 些 时 候 ， 我 们 很 难说 清楚 问题 。 





















































第 20 章 
条 件 概率 与 中 时 斯 统计 








迄今 为 止 , 我 们 使 用 的 统计 方法 在 统计 学 中 都 称 为 频率 论 方法 。 我 们 从 样本 中 得 出 的 结论 完 

这 是 最 常用 的 一 种 推理 框架 , 已 经 发 展 成 为 一 种 非常 成 熟 的 理论 , 主 

要 内 容 包括 本 书 前 而 介 过 的 假设 检验 和 置信 区 间 。 从 原则 上 说 ,这 种 方法 的 优点 是 无 偏 性 , 结 
论 仅仅 建立 在 观测 到 te 

但 是 ， 某 些 情况 更 适合 使 用 男 外 一 种 统计 方法 : 贝 叶 斯 统计 。 看 一 下 图 20-1 中 的 卡通 图 画 。” 























太阳 刚才 爆炸 了 吧 ? 
(现在 是 晚上 上 ， 所 以 我 们 不 确定 ) 
这 个 中 微 子 探测 器 可 以 
测量 出 太阳 是 否 爆炸 过 ， 
然后 ， 它 搓 出 两 个 屠 子 。 如 果 两 个 
( 般 子 都 是 6， 那 么 探测 器 就 在 说 议 ，， 


否则 ， 它 说 的 | 





我 们 试 一 下 
探测 器 | 大 和 
爆炸 了 光 ) 
下 全 
频率 论 贷 计 学 家 贝 叶 斯 统计 学 家 





仅 千 偶 急 性 得 到 这 个 结果 的 
概率 是 1136-0.027。 
因为 六 <OO5， 所 以 我 认为 
太阳 爆炸 了 。 


我 赌 50 美 元 ， 
大 阳 没 有 爆炸 。 


WU 


图 20-1 太阳 爆炸 了 吗 ? 
图 画 中 是 什么 情况 呢 ? 频率 论 统 计 学 家 很 清楚 ， 只 有 两 种 可 能 : 探测 器 掷 出 一 对 6， 表 示 它 











GD http://imgs.xkcd.com/comics/frequentists_vs_bayesians.png 
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说 了 谎 ; 或 者 掷 出 其 他 的 数 , 表示 它 说 的 是 真 的 。 因 为 没有 掷 出 一 对 6 的 概率 是 33/326( 97.22% )， 
所 以 频率 论 统 计 学 家 得 出 结论 ， 探 测 器 可 能 说 的 是 真 话 。 因 此 ， 太 阳 真 的 可 能 爆炸 了 。” 

贝 叶 斯 统计 学 家 在 建立 概率 模型 时 会 加 入 额外 的 信息 。 他 也 认为 探测 器 不 太 可 能 掷 出 一 对 6， 
然而 , 他 主张 要 将 探测 器 说 真 话 的 概率 与 太阳 没有 爆炸 的 先 验 概率 进行 比较 。 这 位 贝 叶 斯 统计 学 
家 最 终 认 为 ， 太阳 没 有 爆炸 的 概率 比 97.22% 还 要 大 ， 并 决定 赌 一 把 “太阳 明天 照常 升 起 ”。 


20.1 条 件 概 率 


构成 贝 叶 斯 推理 基础 的 核心 思想 就 是 条 件 概 率 。 

在 以 前 对 概率 的 讨论 中 ,我 们 依赖 于 一 种 前 提 假 设 ， 即 事件 都 是 独立 的 。 例 如 ,我 们 会 这 样 
假设 , 抛 出 一 枚 硬币 的 结果 是 正面 还 是 反面 ， 与 上 一 次 抛掷 的 结果 是 正面 还 是 反面 无 关 。 这 种 假 
设 对 于 数学 计算 非常 方便 ， 但 生活 并 不 总 是 这 样 。 在 很 多 实际 情况 中 ， 独 立 性 是 个 糟糕 的 假设 。 

考虑 一 下 随机 选择 出 一 个 体重 超过 180 磅 的 美国 成 年 男性 的 概率 。 男 性 的 概率 为 0.5， 体 重 超 
过 180 磅 (美国 人 的 平均 体重 ”) 的 概率 也 大 约 是 0.5。®” 所 以 ， 如 果 这 两 个 事件 是 独立 的 ， 那么 找 
出 一 个 既是 男性 体重 又 超过 180 磅 的 人 的 概率 就 是 0.25。 但 是 ， 这 两 个 事件 不 是 独立 的 ， 因 为 美 
国 男 性 的 平均 体重 要 比 女性 多 30 磅 。 所 以 , 这 个 问题 应 该 是 这 样 的 : (1) 选 择 一 个 男性 的 概率 是 多 
少 ; (2) 如 果 选 择 出 来 的 人 是 男性 ， 那 么 这 个 人 的 体重 超过 180 磅 的 概率 是 多 少 。 使 用 条 件 概 率 的 
表示 方法 可 以 更 容易 地 表述 这 个 问题 。 

P(AIB) 表 示 当 B 为 真 时 ，A 为 真 的 概率 ， 它 经 常 读 作 “给 定 B 时 ，A 的 概率 "。 因 此 ， 公 式 : 

P (male)*P(weight > 180 | male) 
准确 表达 了 我 们 要 找 出 的 概率 。 如 果 P(A) 和 P(B) 是 独立 的 , 那么 P(AIB)= 了 P(A)。 对 于 前 面 的 例子 ， 
B 表 示 男 性 ，A 表 示 体 重 >180。 
一 般 地 ， 如 果 P(B) 0， 则 : 
































































































































































































































P(A+B) 
P(B) 

与 一 般 的 概率 一 样 , 条 件 概率 也 位 于 0 和 1 之 间 。 而且, 如 果 A 表 示 notA, 那么 P(AIB)+P(B)=1。 

人 们 经 常 错误 地 认为 P(A|B) 等 于 P(B|A)， 但 这 种 想法 是 完全 站 不 住 脚 的。 例如 ，P(malelMaltese) 
的 值 大 约 等 于 0.5， 但 P(Malteselmale) 只 有 大 约 0.000064。® 


实际 练习 : 估计 一 下 随机 选择 一 个 体重 大 于 180 磅 的 美国 男性 的 概率 。 假 设 美国 人 口 的 50% 


P(A|B) = 














Q@ 如果 你 信奉 的 是 频率 论 ， 那 么 请 注意 这 几 张 卡通 只 是 在 恶搞 ， 并 不 是 在 批评 你 虔诚 的 信仰 。 

@) 这 个 数字 可 能 会 使 你 震惊 ,但 它 是 正确 的 。 美 国 成 年 人 的 平均 体重 要 比 日 本 成 年 人 的 平均 体重 多 40 磅 。 世 界 上 
成 年 人 平均 体重 超过 美国 的 国家 只 有 3 个 : 瑞 鲁 、 汤 加 和 密 克 罗 尼 西亚 。 

@ 体重 超过 中 位 数 的 概率 是 0.5， 并 不 意味 着 体重 超过 均值 的 概率 也 是 0.5。 但 是 ， 为 了 讨论 的 需要 ， 我 们 假装 这 两 
个 概率 是 相等 的 。 

@ 在 这 里 ,我们 使 用 Maltese 这 个 词 表示 马耳他 人 。 我 们 可 不 知道 世界 上 的 雄性 中 间 有 多 大 比例 是 那 种 可 爱 的 小 
狗 。 ( Maltese 的 男 一 个 意思 是 马尔 济 斯 犬 ， 一 种 产 于 马耳他 的 宠物 狗 。 作 者 开 了 个 玩笑 。 一 一 译 者 注 ) 
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是 男性 ， 而 且 美 国 男性 的 体重 服从 均值 为 210 磅 、 标 准 差 为 30 磅 的 正 态 分 布 。( 提示 : 可 以 考虑 使 
用 经 验 法 则 。) 


公式 P(AB, C) 表 示 当 B 和 C 同 时 成 立时 ，A 成 立 的 概率 。 假 设 B 和 C 是 互 不 相关 的 ， 那 么 通过 
条 件 概 率 的 定义 和 独立 概率 的 乘法 法 则 可 知 : 


P(A|B, C) = 








P(A, B, C) 
P(B, C) 
这 里 的 P(A, B, C) 表 示 A、B 和 C 同 时 为 真 的 概率 。 
同样 地 ，P(A, BIC) 表 示 当 C 为 真 时 ，A 和 B 同 时 为 真 的 概率 。 假 设 A 和 B 是 互 不 相关 的 ， 那么 : 
P(A,B1C) =P(A1C)*PGB1C) 





20.2” 贝 叶 斯 定理 


假设 一 个 四 十 多 岁 的 没有 临床 症状 的 女性 做 了 一 次 乳腺 X 光 检查 ， 然 后 收 到 了 一 个 坏 消息 : 
检查 结果 是 “阳性 ”。” 
患 有 乳腺 瘤 的 女性 通过 乳腺 X 光 检查 确诊 的 真 阳性 概率 为 0.9。 而 没有 患 乳 腺 癌 的 女性 通过 屯 
腺 X 光 检查 误诊 为 乳腺 癌 的 假 旬 性 概率 为 0.07。 

我 们 可 以 使 用 条 件 概率 表示 以 上 的 事实 。 令 : 


Canc = has breast cancer 
TP = true positive 
FP = false positive 


使 用 这 些 变量 ， 我 们 可 以 得 到 如 下 条 件 概 率 : 


P(TP | Canc) = 6.9 
P(FP | not Canc) = 6.67 


知道 了 这 些 条 件 概 率 ， 那 么 一 个 年 过 不 惑 的 女性 应 该 如 何 面 对 阳 性 的 乳腺 X 光 检查 结果 呢 ? 
她 确实 乌 患 乳腺 癌 的 概率 是 多 少 ? 因 为 假 阳 性 率 是 7%, 所 以 概率 应 该 是 0.93 吗 ?还 是 应 该 比 这 个 
大 ， 抑 或 比 这 个 小 ? 

这 个 问题 很 复杂 : 我 们 没有 提供 足够 的 信息 可 以 使 你 给 出 一 个 合理 的 解答 。 要 回答 这 个 问题 ， 
你 需要 知道 年 过 四 十 的 女性 给 患 乳腺 癌 的 先 验 概率 。 对 于 四 十 多 岁 的 女性 来 说 , 患 有 乳腺 癌 的 比 
例 是 0.008( 1000 个 人 中 有 8 个 )。 因 此 ,没有 乳腺 癌 的 比例 是 1 - 0.008 = 0.992。 也 就 是 说 : 


P(Canc | woman in her 46s) = 6.668 
P(not Canc | woman in her 46s) = 9.992 


现在 我 们 已 经 有 了 足够 的 信息 , 可 以 解决 年 过 四 十 的 女性 所 担心 的 问题 了 。 要 计算 出 她 患 有 
乳腺 癌 的 概率 ， 我 们 需要 使 用 贝 叶 斯 定理 ”( 通常 称 为 贝 叶 斯 定律 或 贝 叶 斯 法 则 ): 



































































































































中 在 医疗 术语 中 ,“ 阳 性 ”测试 结果 通常 是 坏 消息 ， 因 为 它 意 味 着 发 现 了 疾病 的 症状 。 
@ 贝 叶 斯 定理 是 以 英国 牧师 托马斯 贝 叶 斯 (1701 一 1761 ) 的 名 字 命 名 的 ， 在 他 去 世 两 年 之 后 才 第 一 次 发 表 。 拉 普 
拉 斯 普及 了 这 个 定理 ， 他 在 1812 年 发 表 的 《概率 分 析 理 论 》 一 书 中 ， 提 出 了 这 个 定理 的 现代 表示 方法 。 
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P(A)*P(B|A) 

PGB) 

在 贝 叶 斯 统计 中 , 概率 测量 的 是 可 信 度 。 贝 叶 斯 定理 表明 了 不 考虑 证 据 的 可 信和 度 和 考虑 了 证 
据 的 可 信和 度 之 间 的 关系 。 公式 等 号 左边 的 部 分 P(A |B) 是 后 验 概率 , 即 考虑 了 B 之 后 的 A 的 可 信和 度 。 
后 验 概率 定义 为 先 验 概率 P(A) 与 证 据 B 对 A 的 支持 度 的 乘积 。 支 持 度 是 A 成 立 的 情况 下 B 成 立 的 概 
率 与 不 考虑 A 时 B 成 立 的 概率 的 比值 ， 即 ey 

如 果 使 用 贝 叶 斯 定理 来 估计 那 位 女性 确实 患 有 乳腺 癌 的 概率 ,我们 可 以 得 到 ( Canc 即 贝 叶 斯 
定理 中 的 A，Pos 则 是 B ); 


P(A|B)= 
















































































P(Canc)*P(Pos | Canc) 


P(Canc | Pos) = Ppos) 





仿 查 结果 为 阳性 的 概率 为 : 
P(Pos) = P(Pos | Canc)*P(Canc) +P(Pos | not Canc)*(1—P(Canc)) 





所 以 

0.008*0.9 _ 0.0072 
.9*0.008+0.07*0.992 0.07664 
也 就 是 说 ,大 约 90% 的 乳腺 X 光 检查 阳性 结果 都 是 假 阳 性 ! “在 这 里 , 贝 叶 斯 定理 能 够 起 作用 的 原 
因 就 是 ， 我 们 对 四 十 岁 以 上 的 女性 患 乳腺 癌 的 概率 有 一 个 准确 的 估计 。 

请 一 定 记 住 ， 如 果 先 验 概率 是 错 的 ， 那么 估计 后 验 概率 时 ， 只 能 使 估计 结果 更 坏 ， 而 不 是 更 
好 。 举 例 来 说 ， 如 果 开 始 时 的 先 验 概 率 为 : 

P(Canc | women in her 462s) = 6.6 
那么 我 们 会 得 出 假 阳 性 率 大 约 为 5%, 也 就 是 说 , 四 十 岁 以 上 的 女性 在 乳腺 X 光 检查 结果 为 阳性 的 
情况 下 ， 患 有 乳腺 瘤 的 概率 是 0.95。 


实际 练习 : 你 正在 森林 中 漫步 , 突然 发 现 一 片 看 上 去 非常 鲜美 的 蘑菇 。 你 采 了 满 满 一 篮 蘑菇 ， 
准备 回 家 为 丈夫 准备 一 顿 丰盛 的 晚餐 。 但是, 在 训 制 蘑菇 之 前 ,丈夫 建议 你 找 本 关于 本 地 蘑菇 种 
类 的 书 参 考 一 下 ， 看 看 它们 是 否 有 毒 。 这 本 书 说 ， 在 本 地 的 森林 中 ，80% 的 蘑菇 都 是 有 毒 的 。 然 
而 ， 你 将 你 采 的 蘑菇 与 书 中 图 片 里 的 蘑菇 对 比 了 一 下 ， 确 定 有 95% 的 把 握 可 以 认为 你 的 蘑菇 是 安 
全 的 。 那 么 你 是 否 应 该 将 芯 菇 做 给 丈夫 吃 〈 如果 你 不 想 成 为 寡妇 的 话 ) ? 


20.3” 贝 叶 斯 更 新 


通过 应 用 贝 叶 斯 定理 , 贝 叶 斯 推理 提供 了 一 种 理论 方法 , 可 以 使 用 新 的 证 据 修正 先前 的 可 信 
度 。 贝 叶 斯 定理 可 以 迭代 使 用 : 观测 到 一 些 新 证 据 之 后 ， 可 以 将 原来 的 后 验 概 率 作为 先 验 概率 ， 
并 根据 新 的 证 据 计 算出 新 的 后 验 概率 。 这 使 得 贝 叶 斯 定理 可 以 应 用 在 各 种 类 型 的 证 据 上 , 无 论 是 


~ 0.094 





P(Canc | Pos) = 
























































































































































在 医学 界 ， 对 于 是 否 应 该 使 用 乳腺 X 光 作为 某 些 人 群 的 常规 检查 项 目 有 过 激烈 的 争论 ， 这 就 是 原因 之 一 。 
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一 下 子 同 时 出 现 的 证 据 ， 还 是 随 着 时 间 推 移 逐 渐 出 现 的 证 据 。 这 个 过 程 就 称 作 贝 叶 斯 更 新 。 

我 们 看 一 个 例子 。 假 设 你 有 一 个 袋子 ， 其 中 装 有 相同 数量 的 三 种 仍 子 ， 每 种 仍 子 掷 出 6 的 概 
率 都 不 一 样 。A 类 型 的 货 子 掷 出 6 的 概率 是 115，B 类 型 的 仍 子 掷 出 6 的 概率 是 116，C 类 型 的 仍 子 掷 
出 6 的 概率 是 1/7。 把 手 伸 进 袋子 ， 抓 出 1 个 仍 子 ,并 估计 这 个 上 货 子 是 A 类 型 的 概率 。 甚 至 不 需要 很 
多 概率 知识 你 就 可 以 知道 ， 这 个 概率 的 最 优 估 计 值 是 13。 然 后 ， 掷 两 次 朋 子 ， 并 根据 结果 修正 
你 的 估计 。 如 果 每 次 都 搓 出 6， 那 么 很 明显 这 个 骨 子 是 A 类 型 的 可 能 性 要 更 大 一 些 。 那 么 这 个 更 
大 的 可 能 性 是 多 少 呢 ? 我 们 可 以 使 用 贝 叶 斯 更 新 来 回答 这 个 问题 。 

根据 贝 叶 斯 定理 ， 第 一 次 掷 出 6 后 ， 这 个 山子 是 A 类 型 的 概率 为 : 
P(A)*P(6| A) 

P(6) 































































































P(A|6)= 


; 
人 





1 ll 
1 1 5 6 7 
P(A) = 二 , P(61A) = 二 , P(6) = 
CY OS- (6) 3 


图 20-2 中 的 代码 实现 了 贝 叶 斯 定理 ， 并 使 用 这 个 定理 计算 出 骨 子 是 A 类 型 的 概率 。 请 注意 ， 
第 二 次 调用 calcBayes 函 数 时 ， 使 用 了 第 一 次 调用 的 结果 作为 A 的 的 先 验 概率 。 









































def calcBayes(priorA, probBifA, probB): 
"""priorA: A 独 立 于 B 时 的 初始 概率 估计 值 
probBifA: A 为 真 时 ，B 的 概率 估计 值 
probB: B 的 概率 估计 值 
返回 priorA*probBifA/probB""" 
return priorA*probBifA/probB 


priorA = 1/3 
prob6ifA = 1/5 
prob6 = (1/5 + 1/6 + 1/7)/3 





postA = calcBayes(priorA, prob6ifA, prob6) 
print('Probability of type A =', round(postA, 4)) 
postA = calcBayes(postA, prob6ifA, prob6) 
print('Probability of type A =', round(postA, 4)) 


图 20-2” 贝 叶 斯 更 新 


























运行 这 段 代 码 ， 会 输出 : 
Probability of type A 
Probability of type A 


0.3925 

0.4622 

可 以 看 出 ， 这 个 概率 估计 的 修正 值 是 一 直上 升 的 。 
那么 ,如 果 两 次 投掷 都 没有 掷 出 6, 会 是 什么 情况 呢 ? 将 图 20-2 中 的 最 后 4 行 代码 蔡 换 为 以 下 代码 : 
postA = calcBayes(priorA，1 - prob6ifA，1 - prob6) 
print('Probability of type A =', round(postA, 4)) 


postA = calcBayes(postA, 1 - prob6ifA, 1 - prob6) 
print('Probability of type A =', round(postA, 4)) 


会 输出 : 








200 


第 20 章 条 件 概率 与 贝 叶 斯 统计 





Probability of type A 
Probability of type A 


0.3212 
8.3696 


可 以 看 出 ， 这 个 概率 估计 的 修正 值 在 一 直下 降 。 


假设 有 理 
































0.9 即 可 。 这 样 ， 如 果 模 拟 两 次 投掷 都 没有 掷 出 6 的 情况 ， 代 码 会 输出 : 


Probability of type A = 6.8673 
Probability of type A = 6.8358 


可 见 ， 先 验 


时 率 有 和 多么 重要 ! 
我 们 再 做 一 个 实验 。 仍 然 保 持 priorA = 6.9， 看 看 如 嚼 








相信 袋子 中 90% 的 仍 子 都 是 A 类 型 ， 只 需 将 原来 代码 中 的 先 验 概率 priorA 修 改 为 


R 抓 出 的 货 子 实际 上 是 C 类 型 会 发 生 什 


么 。 图 20-3 中 的 代码 模拟 了 搓 200 次 C 类 型 的 蜗 子 〈 它 掷 出 6 的 概率 是 1/7 )， 然 后 在 每 20 次 投掷 之 





后 ， 对 这 个 骨 








子 是 A 类 型 的 概率 进行 一 次 修正 ， 并 输出 修正 后 的 估计 值 。 











numRolls = 266 
postA = priorA 
for i in range(numRolls+1): 


if i%(numRolls//106) == 6: 
print('After', i, "rolls. Probability of type A = '， 
round(postA, 4)) 
isSix = random.random() <= 1/7 #because die of type C 
if isSix: 
postA = calcBayes(postA, prob6ifA, prob6) 
else: 
postA = calcBayes(postA, 1 - prob6ifA, 1 - prob6) 








图 20-3 ”对 较 差 先 验 概率 的 贝 叶 斯 更 新 





运行 这 段 代码 ， 会 输出 : 


After 
After 
After 
After 
After 
After 
After 
After 
After 
After 
After 


266 


rolls. Probability of type A = 6.9 

rolls. Probability of type A = 6.4294 
rolls. Probability of type A = 6.3659 
rolls. Probability of type A = 6.2662 
rolls. Probability of type A = 6.1552 
rolls. Probability of type A = 6.6965 
rolls. Probability of type A = 6.6962 
rolls. Probability of type A = 86.1251 
rolls. Probability of type A = 6.1689 
rolls. Probability of type A = 6.6776 
rolls. Probability of type A = 6.6553 





好 消息 是 ,即使 是 在 给 定 了 一 个 有 误导 性 的 先 验 概率 的 情况 下 ， 当 试验 次 数 逐 渐 增 加 时 , 后 


验 概率 还 是 逐渐 收敛 于 真相 。 顺 便 提 一 句 ， 我 们 还 要 注意 ， 这 个 过 程 不 是 单调 















































收敛 的 。120 次 投 


找 之 后 的 概率 要 高 于 100 次 投 撕 之 后 的 概率 ， 说 明 这 20 次 投 撕 更 符合 角子 是 A 类 型 的 情况 ， 而 不 

















是 B 类 型 或 C 


类 型 。 


如 果 我 们 从 一 个 更 好 的 先 验 概率 开始 ， 后 验 概率 会 收敛 得 更 快 。 如 果 回 到 1/3 的 初始 先 验 概 
率 ， 那 么 在 100 次 投掷 之 后 ， 后 验 概 率 就 收敛 到 了 0.0335$; 在 200 次 投掷 之 后 ， 则 收敛 到 0.0205。 
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苇 言 、 该 死 的 旋 言 与 统计 学 








“如 果 你 想 证 明 某 事 ， 却 发 现 没 有 能 力 办 到 ， 那 么 试 着 解释 其 他 事情 并 假装 它们 
是 一 回 事 。 在 统计 资料 与 人 类 思维 冲撞 所 引起 的 焰 眼 光芒 中 ， 几 乎 没有 人 会 发 现 它们 


个 
D 


的 区 别 。” 


统计 思维 出 现 的 历史 并 不 长 ,在 多 数 有 记载 的 历史 中 , 人 们 更 喜欢 以 定性 的 方式 去 评价 事物 ， 
而 不 是 以 定量 的 方式 。 人 们 对 一 些 统计 事实 已 经 形成 了 一 种 直观 的 认识 (例如 女人 通常 比 男人 
矮 )， 但 他 们 缺少 一 种 数学 工具 ， 可 以 将 口 口 相传 的 证 据 转换 为 统计 结论 。 在 17 世 纪 中 叶 ， 这 种 
情况 终于 开始 转变 ， 最 突出 的 标志 就 是 约翰 格 朗 特 出 版 了 他 的 著作 Natural and Political 
Observations Made Upon the Bills of Mortality。 在 这 本 开创 性 的 著作 中 ， 他 使 用 统计 分 析 的 方法 ， 
根据 死亡 名 单 估计 伦敦 的 人 口 数量 ， 并 试图 提供 一 个 模型 以 预测 癌 疫 的 传播 。 

遗憾 的 是 ， 自 此 之 后 ， 人 们 对 统计 学 的 使 用 可 以 说 是 喜忧参半 , 统计 所 造成 的 误导 和 收获 的 
成 果 几 乎 一 样 多 。 有 些 人 故意 使 用 统计 学 来 误导 他 人 ,有 些 人 则 仅仅 因为 能 力 不 够 而 造成 了 误导 。 
我 们 会 在 本 章 中 讨论 几 种 方法 ,人们 经 常 被 这 几 种 方法 所 愚弄 , 从 统计 数据 中 得 出 一 些 不 恰当 的 
推 新 。 我 们 相信 ， 你 在 使 用 这 些 信息 时 仅仅 是 出 于 善意 ,是 为 了 既 能 更 好 地 应 用 统计 信息 ， 也 能 
更 诚实 地 提供 和 传播 统计 信息 。 


21.1 垃圾 输入 ， 垃 圾 输出 


“我 曾经 有 两 次 被 ( 国会 议员 ) 问 道 : ' 巴 贝 奇 先生 ， 如 果 你 向 计算 机 中 输入 了 错误 
的 数字 ,会 得 出 正确 结果 吗 ?’ 我 实在 无 法 理解 ， 思 维 该 有 多 么 混乱 才能 问 出 这 种 愚 硫 
的 问题 。 
















































































一 一 查尔斯 . 巴 贝 奇 2 


道理 很 简单 ,如 果 输 入 数据 有 严重 缺陷 , 那么 无 论 怎样 进行 统计 处 理 ， 都 无 法 产生 有 意义 的 
结果 。 








GD Darrell Huff, How to Lie with Statistics, 1954. 
@) 1791 一 1871， 英 国 数学 家 兼 机 械 工程 师 ， 被 认为 设计 了 第 一 台 可 编程 计算 机 。 他 从 来 没有 制造 出 可 以 实际 工作 
的 计算 机 ， 但 在 1991 年 ， 有 人 根据 他 的 初始 设计 制造 了 可 以 求解 多 项 式 的 机 械 设备 。 





























268 第 21 章 谎言 、 该 死 的 谎言 与 统计 学 









































1840 年 美国 的 人 口 普查 显示 , 在 自由 的 黑人 和 黑白 混血 人 群 中 , 患 有 精神 病 的 比例 是 黑人 奴 
隶 和 黑白 混血 奴隶 的 10 倍 。 这 个 结论 非常 明显 。 正如 美国 参议 员 ( 也 是 前 副 总 统 和 后 来 的 国务 卿 ) 
约翰 ，C. 卡尔 霍 恩 所 说 :“ 这 次 人 口 普 查 中 的 精神 病 数据 是 不 容 质疑 的 ， 根 据 这 个 数据 ， 我 们 得 
出 了 这 样 的 结论 ， 上 废除 奴隶 制 就 是 对 黑人 的 诅咒 。” 不 用 担心 ， 因 为 人 们 后 来 很 快 就 弄 清楚 了 ， 
这 次 人 口 普查 的 数据 错误 百出 。 就 像 卡尔 霍 恩 向 约翰 ' 昆 西 * 亚当 斯 所 解释 的 那样 :“ 错 误 太 多 
了 ， 它 们 彼此 抵消 ， 并 导致 了 同一 个 结论 ， 所 以 看 上 去 好 像 都 是 正确 的 。 

卡尔 霍 恩 ( 可 能 是 故意 的 ) 提供 给 亚当 斯 的 虚假 信息 基于 一 个 经 典 的 错误 ， 即 独立 性 假设 。 
如 果 他 更 会 玩弄 数学 游戏 的 话 ， 就 应 该 这 样 说 :“ 我 确信 统计 误差 是 无 偏 的 ， 并 且 互 相 独 立 ， 因 
此 平均 地 分 布 在 均值 两 侧 。” 实 际 上 ， 后 来 的 分 析 表 明 ， 数 据 的 误差 有 极其 严重 的 偏差 ， 以 至 于 
无 法 得 出 任何 统计 上 有 效 的 结论 。” 


21.2 ”检验 是 有 缺陷 的 


每 种 实验 都 可 以 看 作 具 有 潜在 缺陷 的 检验 。 我 们 可 以 检验 某 种 化 学 成 分 、 某 种 现象 、 某 种 疾 
病 ,， 等 等 。 然而, 我们 所 检验 的 事件 不 一 定 与 检验 结果 相同 。 教 授 设 计 考 试 的 目的 是 为 了 了 解 学 
生 对 某 门 学 科 的 掌握 程度 , 但 考试 结果 不 能 与 学 生 的 实际 掌握 程度 相 混 淆 。 每 种 检验 都 有 其 固有 
的 误差 率 。 假设 一 名 学 习 第 二 外 语 的 学 生 被 要 求学 会 100 个 单词 的 含义 , 但 他 只 学 会 了 其 中 80 个 ， 
那么 他 的 掌握 程度 就 是 80%。 但 使 用 20 个 单词 对 他 进行 测试 时 ， 他 答对 80% 的 概率 则 肯定 不 是 1。 

检验 结果 既 可 以 是 假 阴 性 ， 也 可 以 是 假 阳 性 。 正 如 我 们 在 第 20 章 中 所 看 到 的 ， 即 使 乳腺 X 光 
检查 结果 为 阴性 ， 也 不 能 保证 没有 需 患 乳腺 瘤 ; 同样 ， 阳 性 结果 也 不 意味 着 肯定 患 有 乳腺 癌 。 而 
且 , 检验 的 概率 和 事件 的 概率 也 不 是 一 回 事 , 特别 是 检验 一 个 罕见 的 事件 时 就 更 是 如 此 。 例 如 检 
验 一 种 罕见 的 疾病 ， 如 果 假 阴性 的 成 本 特别 高 ( 如 没有 检查 出 一 种 严重 的 但 可 治愈 的 疾病 )， 那 
么 检验 就 应 该 设计 成 高 度 灵敏 的 ， 即 使 这 样 会 导致 大 量 假 阳 性 的 结果 。 


21.3 图 形 会 骗 人 


毫 无 疑问 ， 使 用 图 形 可 以 快速 表达 信息 。 但 如 果 草 率 地 (或 恶意 地 ) 使 用 图 形 ， 就 有 可 能 造 
成 严重 的 误导 。 例 如 ， 图 21-1 表 示 美 国 中 西部 各 州 房价 。 

看 一 下 图 21-1 的 左 图 ， 似 乎 在 2006~2009 年 ， 房 价 都 非常 平稳 。 且 慢 ! 2008 年 末 的 全 球 金融 
和 危机 过 后 ， 美 国 住宅 房地产 价格 不 是 有 一 轮 暴跌 吗 ?” 确实 是 这 样 的 ， 如 右 图 所 示 。 

这 两 张 图 展示 的 数据 完全 一 样 , 但 给 人 的 印象 却 大 相 径 庭 。 左 图 给 人 的 印象 是 房价 一 直 非 常 
平稳 。 在 Y 轴 上 ， 设计 者 使 用 的 标 度 范围 是 故意 为 之 ， 最 低 平均 房价 是 荡 雇 可 笑 的 1000 美 元 ， 最 
高 平均 房价 则 是 不 可 思议 的 500 000 美 元 。 这 样 就 极 大 地 压缩 了 房价 变化 的 区 间 ， 造 成 了 一 种 房 
价 变动 非常 小 的 假象 。 右 图 则 是 传达 房价 不 规律 变化 直至 最 后 朋 演 的 印象 。 设计 者 精心 挑选 了 一 
段 很 罕 的 价格 范围 ， 使 得 房价 变动 看 起 来 有 些 夸 张 。 





































































































































































































































































































人 我们 应 该 注意 到 ， 卡 尔 霍 恩 在 职 的 时 间距 今 已 经 150 多 年 了 。 不 言 而 喻 ， 并非 只 有 当代 政客 才 会 想方设法 地 滥用 
统计 学 来 获得 支持 。 
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图 21-1 美国 中 西部 房价 


图 21-2 中 的 代码 生成 了 以 上 两 张 图 ,还 生成 了 一 张 试图 准确 表达 房价 变化 的 图 ， 它 使 用 了 两 
种 以 前 没有 介绍 过 的 绘图 功能 。 代 码 调用 pylab.bar(quarters，prices，width) 生 成 了 一 张 给 
定 柱 宽 的 柱状 图 ， 柱 子 左 侧 边缘 对 应 列表 quarters 中 各 个 元 素 的 值 ， 柱 子 高 度 对 应 列表 prices 
中 相应 元 素 的 值 。 函 数 pylab.xticks(quarters+width/2，1labels) 则 描述 了 各 个 柱子 所 对 应 的 
标签 , 第 一 个 参数 设 定 了 标签 的 位 置 , 第 二 个 参数 设 定 了 标签 中 的 文本 。 函 数 yticks 的 功能 也 是 
一 样 的 。 调 用 plotHousing('fair') 可 以 生成 图 21-3。 





























def plotHousing(impression): 
""" 假 设 impression 是 字符 囊 ， 它 的 值 必 须 是 'flat'、'volatile' 和 'fair' 之 一 
生成 一 个 柱状 图 表示 房价 随时 间 的 变化 。""" 
f = open('midWestHousingPrices.txt', 'r') 
# 文 件 中 每 行者 包括 美国 中 西部 地 区 的 季度 房价 
# 柱 形 的 X 轴 坐标 
labels, prices = ([], []) 
for line in ff: 
year, quarter, price = line.split() 
label = year[2:4] + '\n Q' + quarter[1] 
labels.append(1label) 
prices.append(int(price)/1666) 
quarters = pylab.arange(len(labels)) # 柱 形 宽 度 
width = 6.8 #Width of bars 
pylab.bar(quarters, prices, width) 
py1lab.xticks(quarters+twidth/2，1abels) 
pylab.title('Housing Prices in U.S. Midwest ') 
pylab.xlabel('Quarter') 
pylab.ylabel('Average Price ($1,666\'s) ') 
if impression == "flat' : 
py1lab.ylim(1，566) 
elif impression == "Volatile ': 
py1lab.ylim(186，226) 
elif impression == 'fair': 
py1lab.ylim(1596，256) 
else: 
raise ValueError 





plotHousing('flat') 
pylab.figure() 
plotHousing('volatile') 














图 21-2 ”绘制 房价 
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图 21-3 ”房价 的 男 一 种 表达 


21.4 Cum Hoc Ergo Propter Hoc® 


有 资料 表明 , 经 常 上 课 的 大 学 生 的 平均 成 绩 要 比 偶尔 上 课 的 大 学 生 的 平均 成 绩 更 高 。 于 是 我 
们 这 些 授课 老师 就 会 相信 ,这 是 因为 学 生 们 在 我 们 的 课堂 上 学 到 了 一 些 东西 。 当 然 , 这 些 学 生成 
绩 好 的 原因 至 少 还 有 另外 一 种 同样 的 可 能 性 ， 即 爱 上 课 的 学 生 也 更 能 努力 学 习 。 

相关 性 是 一 种 测度 , 用 来 表示 两 个 变量 在 同一 方向 上 发 生变 化 的 程度 。 如 果 x* 与 ?在 变化 方向 上 
相同 ,那么 这 两 个 变量 就 是 正 相 关 ; 如 果 变化 方向 相反 ,就 是 负 相关 ; 如 果 变 量 之 间 没 有 关系 , 那 
么 相关 性 就 是 90。 人 的 身高 与 父母 的 身高 是 正 相关 的 , 玩 游 戏 的 时 间 则 与 平均 成 绩 点 数 是 负 相关 的 。 

当 两 件 事情 具有 相关 性 时 ,人 们 很 容易 认为 一 件 事 是 引起 另 一 件 事 的 原因 。 考虑 一 下 北美 的 
流感 发 病 率 ， 发 病 数量 的 增加 和 减少 看 起 来 是 可 以 预测 的 。 夏 季 几 乎 没有 发 病 报告 ， 到 了 初秋 ， 
发 病 数量 开始 逐渐 增加 ; 当下 一 个 夏季 临近 时 ， 数 量 又 开始 下 降 。 再 考虑 一 下 儿童 的 上 学 情况 。 
署 假 时 学 校 中 的 学 生 很 少 ,初秋 开学 后 ,， 学校 里 的 学 生 开始 增加 ; 当下 一 个 嗜 假 临近 时 ,学校 里 
的 学 生 又 开始 减少 。 

学 校 开学 与 流感 发 病 率 增加 之 间 的 相关 性 是 确实 存在 的 , 这 就 使 很 多 人 认为 , 去 学 校 是 导致 
流感 传播 的 一 个 重要 原因 。 有 可 能 是 这 样 , 但 我 们 不 能 仅仅 根据 相关 性 就 得 出 这 个 结论 。 相 关 性 
并 不 等 于 因果 关系 ! 毕竟 ， 这 种 相关 性 也 可 以 很 容易 地 解释 为 流感 爆发 导致 了 学 校 开 学 。 或 者 ， 
两 方面 都 不 存在 因果 关系 ， 而 是 一 些 我 们 还 不 知道 的 潜在 变量 引发 了 这 两 种 情况 。 实 际 上 , 在 凉 
夹 干 燥 的 气候 中 , 流感 病毒 的 存活 时 间 要 明显 长 于 炎热 湿润 的 气候 ; 而 在 北美 洲 ,感冒 流行 季 与 
学 校 学 期 都 与 凉爽 干燥 的 气候 有 关 。 

如 果 有 足够 多 的 历史 数据 ,那么 很 可 能 会 找到 两 个 相关 的 变量 ， 如 图 21-4 所 示 。” 

























































































































































































































































































@ 像 律 师 与 物理 学 家 一 样 ， 统 计 学 家 有 时 会 使 用 拉丁 语 ， 除 了 显示 自己 博学 多 才 之 外 ， 没 有 什么 其 他 用 处 。 这 人 名 
话 的 意思 是 “于 是 ， 就 知道 为 什么 是 这 样 了 ”。 

© Stephen R. Johnson, “The Trouble with QSAR (or HowILearned to Stop Worrying and Embrace Fallacy)” ,J. Chem. Inf 
Model., 2008. 
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从 墨西哥 进口 到 美国 的 新 鲜 柠檬 ( 吨 ) 
西 哥 柠檬 能 挽救 生命 吗 ? 


找到 这 种 相关 性 的 时 候 , 我 们 要 做 的 第 一 件 事 就 是 , 看 看 是 否 有 一 种 说 得 通 的 理论 可 以 解释 
这 种 相关 性 。 

如 果 错 将 相关 性 当 作 因果 关系 ,结果 会 非常 危险 。2002 年 初 ， 大约 600 万 美国 女性 接受 了 激 
素 蔡 代 疗法 ， 因 为 她 们 相信 这 种 疗法 可 以 大 幅 降低 患 它 血管 疾病 的 风险 。 这 种 信任 来 自 于 一 些 
已 经 发 表 的 非常 著名 的 研究 成 果 ， 这 些 人 研究 表明 ， 接 受 HRTI 的 女性 因 心 血管 疾病 死亡 的 比例 会 
降低 。 

然而 ,《 美 国医 疗 学 会 杂志 》 上 的 一 篇 文章 使 很 多 女性 和 她 们 的 医生 感到 震惊 。 文 章 明 确 宣 
称 ， 接 受 HRT 实 际 上 会 增加 患 心血 管 疾病 的 风险 "。 怎 么 会 这 样 呢 ? 

对 之 前 一 些 研 究 的 重新 分 析 表 明 ， 接 受 HRT 的 女性 很 可 能 在 饮食 和 锻炼 方面 好 于 平均 情况 。 
这 样 在 这 些 研究 中 ,接受 HRT 的 女性 很 可 能 本 来 就 比 其 他 女性 更 健康 。 因 此 ， 接 受 HRT 和 提高 心 
血管 健康 水 平 只 是 常见 原因 引起 的 一 种 巧合 。 


21.5 ”统计 测量 不 能 说 明 所 有 问题 


从 一 个 数据 集中 可 以 计算 出 多 个 不 同 的 统计 量 。 通 过 对 这 些 统计 量 的 精心 选择 ,同一 份 数据 
可 以 表达 出 很 多 种 不 同 的 意思 。 应 对 这 种 情况 的 有 效 手 段 是 直接 查看 数据 集 本 身 。 
1973 年 ， 统 计 学 家 FJ. 安 斯 科 姆 发 表 了 一 篇 论文 ， 其 中 有 一 张 表格 ， 如 图 21-5 所 示 。 这 张 表 
格 包含 了 来 自 4 个 数据 集中 的 点 的 坐标 <x,y>。 这 4 个 数据 集 的 x 坐标 具有 同样 的 均值 (9.0 ) 和 同 
样 的 方差 ( 10.0 ), y 坐 标 也 具有 同样 的 均值 (7.5 ) 和 同样 的 方差 (3.75 ), x 和 y 之 间 的 相关 性 也 一 
样 (0.816 )。 如 果 使 用 线性 回归 为 每 个 数据 集 拟 合 一 条 直线 ， 可 以 得 到 同样 的 结果 : y= 0.5x+3。 
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图 21-4 






















































































































































































QD Nelson HD, Humphrey LL, Nygren P, Teutsch SM, Allan JD. Postmenopausal hormone replacement therapy: scientific 
review. JAMA. 2002;288:872-881. 














10.0 | 8.04 0.0 | 9.14 | 10.0 | 7.46 8.0 6.58 
8.0 6.95 8.0 8.14 | 8.0 6.77 8.0 5.76 
13.0 | 7.58 3.0 | 8.74 | 13.0 | 12.74 | 8.0 7.71 
9.0 8.81 9.0 8.77 | 9.0 7.11 8.0 8.84 
11.0 | 8.33 1.0 | 9.26 | 11.0 | 7.81 8.0 8.47 
14.0 | 9.96 4.0 | 8.10 | 14.0 | 8.84 8.0 7.04 
6.0 7.24 6.0 6.13 | 6.0 6.08 8.0 25 
4.0 4.26 4.0 3.10 | 4.0 5.39 19.0 | 12.50 
12.0 | 10.84 2.0 | 9.13 | 12.0 | 8.15 8.0 5.56 
7.0 4.82 7.0 7.26 | 7.0 6.42 8.0 7.91 
5.0 5.68 5.0 4.74 | 5.0 5:73 8.0 6.89 


图 21-5” 安 斯 科 姆 的 4 个 数据 集 


那么 ， 这 是 否 意味 着 这 4 个 数据 集 之 间 没 有 明显 的 区 别 ? 答案 是 否 
看 出 它们 之 间 有 明显 区 别 ， 如 图 21-6 所 示 。 













































































的 。 绘 制 这 些 数据 即 可 
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图 21-6” 安 斯 科 姆 的 4 个 数据 集中 的 数据 
道理 很 简单 : 如 果 可 能 ， 一 定 要 使 用 某 种 方式 表示 原始 数据 。 
21.6 ”抽样 偏差 


第 二 次 世界 大 战 期 间 ， 同 盟国 的 飞机 只 要 是 执行 完 欧 洲 战场 的 任务 ， 返 回 后 都 要 进行 检查 ， 
看 看 飞机 哪里 容易 被 防空 高 射 炮击 中 。 根 据 这 些 数据 , 机 械 师 会 对 更 容易 被 击 中 的 区 域 进行 加 固 。 
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这 样 做 有 什么 问题 吗 ? 他 们 没有 检查 那些 未 能 从 任务 中 返回 的 飞机 , 因为 这 些 飞机 被 炮火 击 
落 了 。 或 许 这 些 无 法 检查 的 被 击落 的 飞机 会 提供 更 准确 的 数据 ,因为 它们 被 炮火 击 中 的 位 置 才 是 
能 造成 最 大 伤害 的 地 方 。 这 种 类 型 的 错误 被 称 为 无 反应 偏差 ,在 调查 中 非常 常见 。 例 如 , 很 多 大 
学 到 了 期 未 的 时 候 都 会 要 求学 生 对 某 一 门 课 的 教学 质量 进行 评估 。 尽管 这 种 调查 的 结果 通常 都 不 
令 人 满意 , 但 实际 情况 可 能 更 糟糕 。 那些 认为 这 门 课 太 糟糕 而 根本 不 去 上 课 的 学 生 一 般 都 不 会 参 
与 这 种 调查 。” 

正如 第 17 章 中 讨论 过 的 , 所 有 统计 技术 都 基于 这 个 假设 : 通过 对 从 总 体 中 抽取 出 的 样本 进行 
分 析 , 我 们 可 以 推测 总 体 的 整体 性 质 。 如 果 使 用 随机 抽样 ,那么 可 以 对 样本 与 总 体 之 间 的 关系 做 
出 精确 的 数学 推导 。 遗 憾 的 是 ,在 很 多 研究 中 ,特别 是 社会 学 研究 中 , 使 用 的 抽样 方法 称 为 便利 
抽样 。 这 种 方法 在 选择 样本 时 ， 主 要 考虑 的 是 获取 样本 的 容易 程度 。 为 什么 如 此 多 的 心理 学 研究 
使 用 的 样本 是 本 科 生 ?因为 在 校园 里 很 容易 找到 本 科 生 。 便利 抽样 也 可 以 是 有 代表 性 的 , 但 没有 
一 种 方法 能 够 确定 它 是 否 真 的 有 代表 性 。 


21.7 上 下 文 很 重要 


我 们 很 容易 对 数据 进行 过 度 解读 ， 特 别 是 在 没有 上 下 文 的 情况 下 。2009 年 4 月 29 日 ，CNN 报 
道 :“ 墨 西 哥 卫生 官员 怀疑 猪 流感 的 爆发 导致 了 大 约 2300 人 被 感染 ， 并 至 少 有 159 人 死亡 。” 真是 
太 可 怕 了 一 一 直到 我 们 知道 美国 每 年 因 季 节 性 流感 而 死亡 的 人 数 是 36 000 例 。 

一 个 经 常 被 引用 的 精确 统计 是 “多 数 车 祸 都 发 生 在 离 家 10 英 里 的 范围 内 ”。 那 又 怎么 样 呢 ? 
绝 大 多 数 人 不 就 是 在 离 家 10 英 里 的 范围 内 开车 吗 ! 此 外 ,“ 家 ”在 这 个 上 下 文中 的 具体 含义 是 什 
么 ? 这 个 统计 是 将 汽车 的 注册 地 点 作为 “家 ”， 才 计算 出 这 个 结果 的 。 那 我 们 是 不 是 只 要 将 汽车 
注册 在 遥远 的 地 方 ， 就 可 以 降低 发 生 车 祸 的 概率 ? 

对 于 美国 政府 减少 民众 持 枪 的 倡议 ， 反 对 者 非常 喜欢 引用 这 一 统计 数字 ， 即 在 任何 一 年 中 ， 
美国 大 约 99.8% 的 枪支 都 没有 用 于 暴力 犯罪 。 但 是 在 没有 上 下 文 的 情况 下 ， 我 们 很 难 了 解 这 个 数 
字 的 真正 含义 。 它 说 明 在 美国 没有 很 多 枪支 暴力 吗 ? 据 美国 步枪 协会 报道 ， 该 国 大 约 有 3 亿 私 人 
枪支 ，3 亿 的 0.2% 就 是 600 0001 


21.8 慎 用 外 推 法 


根据 现 有 数据 很 容易 进行 外 推 。 我 们 在 18.1.1 节 就 进行 了 外 推 ， 将 从 线性 回归 得 到 的 拟 合 结 
果 进 行 了 扩展 ， 预 测 了 回归 中 未 使 用 的 数据 。 只 有 在 有 效 的 理论 依据 的 支持 下 ， 才 能 进行 外 推 。 
特别 是 在 进行 直线 外 推 时 ， 要 特别 慎重 。 

考虑 图 21-7 中 的 左 图 ， 它 展示 了 1994~2000 年 美国 互联 网 使 用 的 增长 。 可 以 看 到 ， 直 线 是 非 
常 好 的 拟 合 。 

图 21-7 中 的 右 图 使 用 这 个 拟 合 预 测 了 以 后 几 年 使 用 互联 网 的 人 数 占 美国 总 人 口 的 比例 。 这 种 



















































































































































































Q@ 如 果 改 成 在 线 调查 ， 那 么 不 去 上 课 的 学 生 也 能 参与 ， 这 对 教授 的 自尊 心 来 说 可 不 是 一 个 好 兆头 。 
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预测 有 点 令 人 难以 置信 , 看 上 去 到 2009 年 的 时 候 ， 几乎 所 有 美国 人 都 在 使 用 互联 网 , 这 是 不 可 能 
的 。 更 加 不 可 能 的 是 ， 到 2015 年 ， 超 过 140% 的 美国 人 在 使 用 互联 网 。 











美国 互联 网 用 户 量 预测 美国 互联 网 用 户 量 
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图 21-7 美国 互联 网 用 户 增长 





21.9 得克萨斯 神枪手 庄 误 


假设 你 正 开车 行驶 在 得 克 萨 斯 的 一 条 乡间 小 路 上 ， 突 然 发 现 一 个 谷 仓 上 夯 着 6 个 靶子 ， 每 个 
节 子 的 正中 央 都 有 一 个 弹 孔 。“ 是 的 , 先生 ,” 谷 仓 主 人 说 :“ 我 从 未 失手 。”“ 没 错 ,” 他 的 妻子 说 ， 
“在 得 克 萨 斯 ， 没 有 一 个 人 用 刷子 比 你 更 准 了 。” ”明白 了 吗 ? 谷 仓 主人 先 开 了 6 枪 ， 然 后 在 弹 孔 周 
围 画 上 了 靶子 。 
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图 21-8 教授 对 学 生 扔 粉笔 的 准确 率 大 伤 脑筋 
一 个 经 典 案例 出 现在 2001 年 。" 据 报道 ， 阿 伯 丁 皇家 康 希 尔 医 院 的 一 个 研究 小 组 发 现 ,“ 患 厌 
食 症 的 女性 最 有 可 能 出 生 于 春天 或 初夏 …… 三 月 到 六 月 之 间 出 生 的 女性 厌食 症 患 者 要 比 平均 数 
多 13%， 而 只 计算 六 月 份 则 要 比 平均 数 多 30%”。 








QD Eagles, John, et al., “Season of birth in females with anorexia nervosa in Northeast Scotland” , International Journal of 


Eating Disorders, 30, 2, September 2001. 
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我 们 看 一 下 这 个 令 六 月 份 出 生 的 女性 非常 不 安 的 统计 结果 。 该 小 组 研究 了 446 位 被 诊断 为 天 
食 症 的 女性 患者 ， 所 以 每 月 出 生 的 均值 应 该 是 37 稍 多 一 点 。 这 说 明 六 月 份 的 出 生 人 数 应 该 是 48 
(37*1.3 )。 我 们 写 段 小 程序 ( 图 21-9 ) 来 估计 一 下 仅 凭 偶然 性 出 现 这 种 情况 的 概率 。 


























def juneProb(numTrials) : 


june48 = 6 
for trial in range(numTrials): 
june = 6 


for i in range(446): 
if random.randint(1,12) == 6: 
june += 1 
if june >= 48: 
june48 += 1 
jProb = round(june48/numTrials, 4) 
print('Probability of at least 48 births in June ="', jProb) 











图 21-9 六 月 份 出 生 48 位 厌食 症 患 者 的 概率 


运行 juneProb(16666) ， 会 输出 : 

Probability of at least 48 births in June = 8.6427 
看 来 ,， 仅 凭 偶然 性 在 六 月 份 至 少 出 生 48 个 婴儿 的 概率 大 约 只 有 4.5%。 所 以 , 阿 伯 丁 的 这 些 研 究 者 
可 能 确实 发 现 了 一 些 有 意义 的 东西 。 好 吧 , 或 许 他 们 确实 先 假设 六 月 份 出 生 的 婴儿 更 有 可 能 患 厌 
食 症 ， 然 后 再 进行 研究 来 检验 这 个 假设 。 

但 事实 并 非 如 此 。 相 反 ,， 他们 先 观察 数据 ， 然 后 就 像 得 克 萨 斯 的 神枪手 一 样 ， 在 六 月 份 画 了 
一 个 圆 。 正 确 的 统计 问题 应 该 是 ， 看 看 有 一 个 月 份 至 少 出 生 48 位 婴儿 的 概率 是 多 少 。 图 21-10 中 
的 程序 回答 了 这 个 问题 。 



































def anyProb(numTrials): 
anyMonth48 = 6 


for trial in range(numTrials): 
months = [6]*12 
for i in range(446): 
months[random.randint(6,11)] += 1 
if max(months) >= 48: 
anyMonth48 += 1 
aProb = round(anyMonth48/numTrials, 4) 


print('Probability of at least 48 births in some month =",aProb) 

















图 21-10” 某 月 出 生 48 位 厌食 症 患者 的 概率 





运行 anyProb(16666) ， 会 和 输出: 


Probability of at least 48 births in some month = 8.4357 
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由 此 可 知 , 这 项 研究 的 结果 完全 有 可 能 是 由 于 偶然 性 而 产生 的 , 它 不 能 说 明 出 生 月 份 和 厌食 症 二 
者 之 间 有 真正 的 联系 。 并 不 是 只 有 得 克 萨 斯 州 的 人 才 会 成 为 得 克 萨 斯 神枪手 廖 误 的 受害 者 。 

由 此 可 见 ,， 实 验 结果 的 显著 性 依赖 于 实验 的 执行 方式 。 如 果 阿 伯 丁 小 组 从 “更 多 厌食 症 患 者 
出 生 在 六 月 份 ”这 个 假设 开始 研究 , 那 他 们 的 结果 就 会 更 值得 关注 。 但 如 果 他 们 先 假设 有 一 个 月 
份 出 生 的 厌食 证 患者 特别 多 ,， 那 结果 就 不 那么 令 人 信服 了 。 实 际 上 , 他们 是 在 检验 多 重 假 设 , 可 
能 应 该 使 用 邦 费 罗 尼 校正 法 ( 参见 19.6 节 )。 

阿 伯 丁 小 组 下 一 步 应 该 如 何 检 验 他 们 的 新 假设 呢 ? 一 种 可 能 的 方式 是 进行 前 瞻 性 研究 。 在 前 
脆性 研究 中 ， 先 从 一 组 假设 开始 , 并 根据 这 些 假 设 归 纳 出 一 些 研 究 主题 , 这 些 主 题 都 可 能 产 出 有 
意义 的 结果 ( 在 本 例 中 是 厌食 症 )。 然 后 对 这 些 主题 进行 一 段 时 间 的 持续 研究 ， 如 果 小 组 在 某 个 
寺 定 主题 的 前 脆性 研究 中 取得 了 符合 假设 的 结果 ， 那 么 这 个 假设 就 是 令 人 信服 的 。 

前 脆性 研究 所 需 的 费用 和 时 间 花 费 都 非常 高 。 在 回顾 性 研究 中 , 我 们 可 以 通过 检查 现 有 数据 
来 减少 获得 错误 结果 的 可 能 性 。18.4 节 讨论 过 一 种 常用 的 技术 ， 就 是 将 数据 划分 为 训练 集 和 和 暂时 
不 用 的 测试 集 。 例 如 ， 阿 伯 丁 小 组 可 以 从 数据 中 随机 选择 446/2 位 女性 ( 作为 训练 集 )， 然 后 计算 
每 个 月 份 的 出 生 人 数 ， 之 后 再 和 其 余 女 性 (测试 集 ) 在 每 个 月 份 的 出 生 人 数 进 行 对 比 。 


21.10 莫名其妙 的 百分比 


一 位 投资 顾问 给 他 的 客户 打 电 话 , 汇报 客户 的 股票 投资 组 合 在 上 个 月 涨 了 16%。 他 承认 ,一 
年 中 的 股价 会 有 些 波 动 ， 但 令 人 欣慰 的 是 ， 平均 每 月 变动 是 +0.5%。 客 户 拿 到 当年 结算 单 时 ， 发 
现 股票 投资 组 合 的 价值 在 过 去 一 年 中 居然 下 降 了 ， 可 想 而 知 ， 他 该 有 多 么 气 恼 。 

客户 打 电 话 给 投资 顾问 ， 指 责 后 者 是 个 骗子 。“ 在 我 看 来 ,” 他 说 ,“ 我 的 投资 组 合 的 价值 下 
降 了 8%， 可 你 却 告 诉 我 每 月 上 涨 了 0.5%。”“ 我 没 这 么 说 ,” 投 资 顾问 答 道 ,“ 我 告诉 你 的 是 平均 
每 月 变动 为 +0.5%。” 窜 户 查 看 每 月 结算 单 时 , 发现 投资 顾问 没有 撒谎 , 但 是 误导 了 他 。 客户 的 投 
资 组 合 的 价值 在 前 半年 每 月 下 降 了 15%， 在 后 半年 则 每 月 提高 了 16%。 

考虑 百分比 时 ， 我们 一 定 要 注意 计算 百分比 时 使 用 的 基数 。 在 本 例 中 ， 相 对 于 16% 的 提高 速 
度 ， 以 15% 的 速度 下 降 时 的 基数 更 大 。 

基数 很 小 时 ,百分比 可 以 造成 严重 的 误导 。 你 可 能 读 过 相关 报道 ， 比 如 某 种 药品 的 副作用 是 
增加 某 种 疾病 200% 的 发 病 率 。 但 如 果 这 种 疾病 的 发 病 率 本 来 就 非常 低 ， 比 如 说 百 万 分 之 一 ， 那 
么 你 就 可 以 认为 ， 使 用 这 种 药品 的 风险 完全 可 以 被 其 正面 效果 所 抵消 。 


21.11 不 显著 的 显著 统计 差别 
毛 伊 岛 理工 学 院 的 一 位 招生 负责 人 希望 向 全 世界 证 明 , 他 们 学 校 的 招生 过 程 是 “无 性 别 歧视 ” 

































































































































































的 。 这 位 负责 人 号 称 :“ 在 这 里 ,男性 与 女性 的 平均 学 分 绩 点 没有 显著 差别 。” 可 就 在 同一 天 , 一 
位 狂热 的 女性 沙文 主义 者 宣布 :“ 在 毛 伊 岛 理工 学 院 , 女性 的 平均 学 分 绩 点 要 显著 高 于 男性 。 一 








位 迷茫 的 学 生 小 报 记 者 决定 研究 一 下 数据 , 并 曝光 说 谎 者 。 但 当 她 化 费 苦心 地 终于 弄 到 了 大 学 的 
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数据 后 ， 却 发 现 这 两 个 人 说 的 都 是 真 的 。 

“在 毛 伊 岛 理工 学 院 , 女性 的 平均 学 分 绩 点 要 显著 高 于 男性 。” 这 句 话 究竟 是 什么 意思 呢 ? 没 
有 学 过 统计 学 的 人 大 部 分 人 ) 很 可 能 会 由 此 得 出 结论 : 女性 和 男性 的 GPA 之 间 有 “比较 大 的 ” 
差别 ,。 与 此 相反 , 刚刚 学 过 统计 学 的 人 则 会 得 出 以 下 结论 : (1) 女性 的 平均 GPA 要 高 于 男性 ; (2) 原 
假设 为 GPA 之 间 的 差别 是 由 随机 性 造成 的 ， 而 我 们 可 以 在 5% 的 水 平 上 拒绝 这 个 原 假设 。 

举例 来 说 ,假设 有 2500 名 女性 和 2500 名 男性 在 该 校 学 习 。 再 假设 男性 的 GPA 是 3.5， 女 性 的 
GPA 是 3.51， 女 性 和 男性 的 GPA 的 标准 差 都 是 0.25。 多 数 正常 人 都 会 认为 这 样 的 GPA 差 别 是 “不 
显著 的 ”， 然 而 从 统计 学 的 观点 看 ， 这 个 差别 却 是 在 2% 的 水 平 上 “显著 的 ”。 出 现 这 种 情况 的 根 
源 是 什么 呢 ? 正如 我 们 在 19.5 节 中 所 说 的 ， 当 一 项 研究 具有 足够 的 动力 时 ， 也 就 是 有 足够 的 样本 
时 ， 即 使 不 显著 的 差别 在 统计 上 也 可 以 是 显著 的 。 

当 研究 规模 非常 小 时 ， 也 会 出 现 类 似 的 问题 。 假 设 你 抛 了 两 次 硬币 ,每 次 都 是 正面 向 上 。 下 
面 ， 我 们 使 用 19.3 节 介绍 过 的 双 尾 单 样本 检验 ， 检 验 “硬币 是 均匀 的 ”这 个 原 假设 。 如 果 假 设 正 
面向 上 的 值 为 1， 反 面向 上 的 值 为 0， 那 么 可 以 使 用 以 下 代码 得 到 P- 值 : 

stats.ttest_1samp([1，1]，68.5)[1] 


代码 返回 的 P- 值 为 0%，， 说 明 如 果 硬 币 是 均匀 的 ， 那么 连续 两 次 正面 向 上 的 概率 为 0。 


21.12 回归 假象 


人 们 没有 考虑 到 事件 的 正常 波动 时 ， 就 会 产生 回归 假象 。 

所 有 运动 员 都 有 高 峰 期 和 低潮 期 。 处 于 高 峰 期 时 ， 他 们 会 努力 保持 ,不 做 任何 改变 ; 处 于 低 
潮 期 时 ， 他 们 总 是 尝试 改变 。 不 管 这 些 改 变 是 否 真 的 有 效 ， 回 归 到 均值 (15.3 节 ) 的 性 质 非常 可 
能 使 运动 员 在 做 出 改变 的 几 天 后 的 表现 好 于 低潮 期 。 但 运动 员 非 常 可 能 认为 这 是 处 理 效应 , 也 就 
是 说 ， 他 们 会 将 竞技 状态 的 提高 归功 于 他 们 做 出 的 改变 。 

诺 贝尔 心理 学 奖 获得 者 丹尼尔 卡 内 曼 讲 过 一 个 关于 以 色 列 空军 飞行 教员 的 故事 。 卡 内 曼 认 
为 , 对 好 的 表现 进行 奖励 要 比 对 错误 进行 惩罚 的 效果 好 , 但 这 位 教员 可 不 这 么 看 。 教 员 的 根据 是 : 
“很 多 时 候 ， 实 习 飞 行 员 漂 亮 地 完成 特技 飞行 动作 时 ， 我 称赞 他 们 ; 但 下 一 次 做 同样 的 动作 时 ， 
他 们 则 完成 得 很 糟糕 。 相 反 ， 他 们 出 现 操 作 失 误 时 ,我 对 着 他 们 的 耳机 暴 跳 如 雷 ; 一 般 来 说 , 他 
们 下 次 就 能 做 得 好 一 些 。”" 我 们 经 常会 将 回归 假象 当 作 处 理 效 应 , 这 是 很 自然 的 ， 因 为 我 们 很 难 
进行 周密 的 思考 。 有 些 时 候 ， 所 谓 处 理 效 应 仅仅 是 因为 侥幸 或 者 运气 才 出 现 的 。 

腾 想 出 根本 不 存在 的 处 理 效 应 是 十 分 危险 的 。 它 可 以 使 我 们 相信 疫苗 接种 对 身体 有 害 、 蛇 油 
可 以 包 治 百 病 、 为 上 一 年 “击败 市 场 ”的 共同 基金 倾注 全 部 投资 是 一 种 好 的 策略 。 



























































































































































































































































中 《思考 : 快 与 慢 》 











21.13 小心 为 上 


滥用 统计 学 的 历史 可 以 轻松 写 出 几 百 页 ， 而 且 非 常 有 意思 。 至 此 为 止 ,你 应 该 已 经 懂得 这 个 
道理 : 用 数字 说 谎 和 用 语言 说 谎 一 样 容易 。 做 出 结论 之 前 ,一 定 要 天 清楚 你 的 测量 检验 对 象 的 实 
际 意 义 ， 以 及 那些 “统计 上 显著 ”的 结果 是 如 何 计算 的 。 正 如 达 莱 尔 ' 哈 夫 所 说 :“ 如 果 你 找 问 
数据 的 时 间 足 够 长 ， 那 么 它 会 坦白 一 切 。”” 














Oz Darrell Huff How to Lie with Statistics, 1954. 诺 贝 尔 经 济 学 奖 获得 者 罗 纳 德 . 科斯 也 说 过 类 似 的 话 。 
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机 器 学 习 简 介 








当今 世界 的 数据 量 增长 速度 简直 超 乎 想象 。 从 20 世 纪 80 年 代 开 始 , 世界 上 的 数据 存储 容量 
约 每 3 年 就 翻 一 番 。 在 你 读 完 本 章 的 这 段 时 间 内 ,世界 上 的 数据 存储 会 增加 10"* 位 。 很 难 想象 这 个 
数字 有 多 大 ， 可 以 打 个 比方 ，10* 枚 加 拿 大 便士 的 面积 大 约 是 地 球 表面 积 的 两 倍 。 

当然 , 更 多 数据 并 不 一 定 能 提供 更 多 有 用 信息 。 进 化 是 一 个 缓慢 的 过 程 ， 人 类 思维 对 数据 的 
吸收 能 力也 不 可 能 每 3 年 就 翻 一 番 。 如 果 要 从 “大 数据 ”中 尽 可 能 提取 有 用 信息 ， 现 在 可 以 使 用 
统计 机 器 学 习 。 

机 器 学 习 很 难 明确 地 定义 。 从 某 种 意义 上 说 , 所 有 可 用 的 程序 都 可 以 学 习 到 一 些 东 西 。 例 如 ， 
对 牛顿 法 的 程序 实现 可 以 “学 习 ” 一 个 多 项 式 的 根 。 最 早 的 一 种 机 需 学 习 定 义 是 由 美国 电气 工程 
师 、 计 算 机 科学 家 亚 瑟 ' 塞 缪 尔 " 提 出 的 , 他 给 出 的 定义 是 :“ 机 器 学 习 是 使 计算 机 不 用 特意 编程 
就 可 以 获得 学 习 能 力 的 研究 领域 。” 

人 类 通过 两 种 方式 进行 学 习 一 一 记忆 和 归纳 。 我 们 通过 记忆 积累 单个 事实 。 例 如 ， 在 英国 ， 
小 学 生 会 学 习 英 国 的 历代 君王 。 我 们 使 用 归纳 从 旧 的 事实 推导 出 新 的 事实 。 例如 , 一 个 政治 学 专 
业 的 大 学 生 会 观察 很 多 政客 的 行为 , 然后 从 这 些 观察 中 归纳 出 一 个 结论 : 所 有 政客 都 会 在 竞选 活 
动 中 说 谎 。 

当 计算 机 科学 家 说 起 机 器 学 习 时 ， 他 们 通常 指 的 是 进行 一 种 训练 ， 通 过 这 种 训练 可 以 编写 
能 自动 学 会 根据 数据 隐 含 模式 进行 合理 推断 的 程序 。 举 例 来 说 ， 通 过 线性 回归 (参见 第 18 章 ) 
可 以 学 习 一 条 曲线 ， 作 为 一 组 实例 的 模型 ， 然 后 使 用 这 个 模型 对 未 知 实例 进行 预测 。 基 本 范式 
如 下 : 

(1) 观察 一 组 实例 ， 通 常 称 为 训练 数据 ， 它 们 可 以 表示 某 种 统计 现象 的 不 完整 信息 ; 

(2) 对 观测 到 的 实例 进行 扩展 ， 并 使 用 推断 技术 对 扩展 过 程 建 模 ; 

(3) 使 用 这 个 模型 对 未 知 实例 进行 预测 。 

举例 来 说 ， 假 设 我 们 有 图 22-1 中 的 两 个 姓名 集合 以 及 图 22-2 中 的 特征 向 量 。 
























































































































































J 塞 缪 尔 最 著名 的 成 就 是 开发 了 西洋 跳棋 程序 。 他 从 20 世 纪 50 年 代 开始 开发 ,一 直 持 续 到 20 世 纪 70 年 代 。 尽 管 以 
现在 的 标准 看 这 个 程序 不 那么 出 色 ， 但 在 当时 非常 引 人 关 注 。 开 发 这 个 程序 时 ， 塞 缪 尔 发 明了 很 多 至 今 仍 在 使 
用 的 技术 。 此 外 ， 塞 缪 尔 的 跳棋 程序 非常 可 能 是 第 一 个 可 以 根据 “经 验 ” 提 高 自己 的 程序 。 


































































































A: {Abraham Lincoln, George Washington, Charles de Gaulle} 
B: {Benjamin Harrison, James Madison, Louis Napoleon} 














图 22-1 ”两 个 姓名 集合 








Abraham Lincoln: [American, President, 193 cm talll] 
George Washington: [American, President, 189 cm talll] 
Charles de Gaulle: [French, President, 196 cm talll] 
Benjamin Harrison: [American, President, 168 cm talll] 
James Madison: [American, President, 163 cm talll] 
Louis Napoleon: [French, President, 169 cm talll] 











图 22-2 ”为 每 个 姓名 关联 一 个 特征 向 量 


特征 向 量 中 的 每 个 元 素 都 对 应 着 人 的 某 个 方面 ( 也 就 是 特征 )。 基 于 这 些 历史 人 物 的 有 限 信 
息 ， 你 可 以 推断 出 ， 为 这 些 人 物 贴 上 标签 A 或 是 标签 B 的 过 程 应 该 就 是 将 高 个 总 统 与 矮 个 总 统 区 














别 开 来 的 过 程 。 
机 器 学 习 的 方法 数不胜数 , 但 所 有 方法 都 试图 建立 一 个 模型 来 对 现 有 实例 进行 归纳 。 所 有 方 
法 都 具有 以 下 3 个 部 分 : 


口 模型 的 表示 ; 
口 用 于 评估 模型 优 度 的 目标 函数 ; 
口 一 种 优化 方法 ， 可 以 通过 学 习 找 出 一 个 模型 ， 使 目标 函数 值 最 小 化 或 最 大 化 。 

一 般 来 说 ， 机 器 学 习 算法 可 以 分 为 监督 式 学习 方 法 和 无 监督 式 学 习 方法 。 

在 监督 式 学 习 中 , 我 们 先 从 一 组 成 对 的 特征 向 量 和 值 开 始 。 目 标 是 从 这 些 特 征 向 量 和 值 中 推 
导出 某 种 规则 ， 以 预测 与 未 知 的 特征 向 量 所 对 应 的 值 。 回 归 模 型 为 每 个 特征 向 量 关 联 一 个 实数 。 
分 类 模型 为 每 个 特征 向 量 关 联 一 组 数量 有 限 的 标签 。” 

我 们 在 第 18 章 介绍 过 一 种 回归 模型 一 一 线性 回归 。 在 线性 回归 中 ， 每 个 特征 向 量 就 是 一 个 x 
坐标 ,与 之 对 应 的 值 则 是 相应 的 y 坐 标 。 根 据 这 个 特征 向 量 和 值 的 集合 ,我 们 可 以 学 习 一 个 模型 ， 
用 来 预测 与 任 一 x 坐标 对 应 的 y 坐 标 。 

下 面 看 一 个 简单 的 分 类 模型 。 我 们 已 经 有 了 图 22-1 中 的 带 有 A 标签 和 B 标 签 的 总 统 集合 ， 以 
及 图 22-2 中 的 特征 向 量 ， 那 么 可 以 生成 图 22-3 中 的 特征 向 量 /标签 对 。 
















































































[American, President, 193 cm tall], A 
[American, President, 189 cm tall], A 
[French, President, 196 cm tall], A 
[American, President, 168 cm tall], B 
[American, President, 163 cm tall], B 
[French, President, 169 cm tall], B 














图 22-3 总统 的 特征 向 量 /标签 对 









































@ 很 多 机 器 学 习 文献 会 使 用 “类 ”这 个 词 ， 而 不 使 用 “标签 ”。 因 为 本 书 中 的 “类 ”已 经 被 用 来 表示 其 他 含义 ， 
所 以 我 们 还 是 使 用 “标签 ”来 表示 这 个 概念 。 
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根据 这 些 已 经 标注 的 实例 ， 学 习 算 法 会 推 凑 出 所 有 高 个 总 统 应 该 标注 为 A， 所 有 做 个 总 统 应 
该 标注 为 B。 需 要 为 以 下 特征 向 量 做 标注 时 : 

[American, President, 189 cm.]? 
算法 会 应 用 学 习 到 的 规则 选择 标签 A。 

监督 式 机 器 学 习 在 实际 中 有 广泛 的 应 用 ， 例 如 检测 信用 卡 欺诈 行 为 ， 或 向 人 们 推荐 电影 。 

在 非 监督 式 学 习 中 , 我 们 被 给 定 一 个 没有 标注 的 特征 向 量 集合 。 非 监督 式 学 习 的 目标 就 是 发 
现 特征 向 量 集合 中 的 隐 仿 模式。 举例 来 说 , 给 定 总 统 特征 向 量 的 集合 , 非 监督 式 学 习 算法 会 将 总 
统 分 为 高 个 和 矮 个 , 也 可 能 分 为 美国 人 和 法 国人 。 一 般 来 说 , 非 监督 式 机 器 学 习 方 法 可 以 分 为 两 
种 ， 一 种 是 聚 类 方法 ， 另 一 种 是 隐 变 量 模型 学 习 方法 。 

隐 变 量 的 值 不 能 直接 观测 到 , 但 可 以 通过 其 他 可 观测 的 变量 的 值 推测 出 来 。 例如 ， 大 学 的 招 
生 负 责 人 可 以 根据 学 生 的 中 学 成 绩 和 在 标准 测试 中 的 表现 等 一 系列 观测 值 , 推测 出 申请 者 是 一 个 
优秀 学 生 ( 隐 变 量 ) 的 概率 。 隐 变量 模型 学 习 方法 非常 多 , 但 本 书 不 做 介绍 。 

聚 类 将 实例 集合 划分 为 多 个 子 集 ( 称 为 “ 簇 ”), 使 得 同一 子 集中 的 实例 之 间 的 相似 度 大 于 与 
其 他 子 集中 的 实例 的 相似 度 。 例如， 遗传 学 家 可 以 使 用 聚 类 方法 找 出 相关 的 基因 组 。 很 多 常用 的 
聚 类 方法 特别 简单 。 

我 们 会 在 第 23 章 介绍 一 种 广泛 使 用 的 聚 类 方法 ,并 在 第 24 章 介绍 几 种 监督 式 学 习 方法 。 在 
本 章 后 面 的 内 容 中 ,我们 将 讨论 建立 特征 向 量 的 过 程 ， 以 及 计算 两 个 特征 向 量 之 间 相 似 度 的 几 
种 方法 。 


22.1 特征 向 量 


信 骂 比 这 个 概念 在 工程 和 科学 的 多 个 分 支 中 都 有 应 用 , 它 的 精确 定义 在 不 同 的 应 用 范围 中 也 
有 变化 , 但 基本 思想 非常 简单 ， 可 以 将 它 看 作 有 用 输入 和 无 关 输 入 的 比值 。 在 餐馆 中 ,信号 就 是 
你 的 晚餐 约会 对 象 的 声音 ， 噪 声 就 是 其 他 食客 的 声音 ”。 如 果 我 们 想 预 测 哪个 学 生 会 在 编程 课 中 
取得 好 成 绩 , 那么 以 前 的 编程 练习 和 数学 能 力 就 是 部 分 信号 ,头发 的 颜色 就 仅仅 是 噪声 。 有 时 候 
很 难 区 别 信 号 与 噪声 ， 如 果 区 分 得 不 好 ， 那 么 噪声 就 会 造成 干扰 ， 掩 盖 真 实 的 信号 。 

特征 工程 的 目的 就 是 将 现 有 数据 中 可 以 作为 信号 的 特征 与 那些 仅 是 噪声 的 特征 区 分 开 来 。 特 
征 工 程 的 失败 会 导致 糟糕 的 模型 。 当 数据 的 维度 ( 即 特 征 的 数量 ) 相对 于 样本 量 来 说 比较 大 时 ， 
特征 工程 就 具有 和 较 高 的 失败 风险 。 

成 功 的 特征 工程 是 一 个 抽象 过 程 , 它 可 以 将 大 量 的 可 用 信息 缩减 为 可 以 用 于 归纳 的 信息 。 举 
例 来 说 ， 如 采 你 的 目标 是 学 习 一 个 模型 ,用 来 预测 某 个 人 是 否 容易 患 心 脏 病 , 那么 有 些 特征 就 可 
能 是 与 之 高 度 相 关 的 ， 比 如 年 龄 。 而 其 他 特征 就 可 能 没 那 么 重要 ， 比 如 这 个 人 是 否 是 左 利 手 。 

可 以 使 用 特征 消除 技术 自动 识别 特征 集合 中 那些 最 可 能 有 用 的 特征 ,例如 ,在 监督 式 学 习 中 ， 



































































































































































































































































































































@ 这 个 人 是 托马斯 杰 裴 逊 ， 他 的 身高 就 是 189 厘 米 。 
@) 除非 你 的 约会 对 象 超级 无 聊 。 如 果真 是 这 样 ， 那 么 约会 对 象 的 谈话 就 变 成 了 噪声 ， 邻 桌 的 谈话 则 成 了 信和 号 。 
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我 们 可 以 选择 那些 与 实例 的 标签 具有 最 强 相关 性 的 特征 。 但 是 ， 如 果 我 们 初始 选择 的 特征 不 是 
有 用 特征 的 话 , 这 些 特 征 消除 技术 就 几乎 起 不 了 什么 作用 。 假 设 在 处 理 心脏 病 实例 时 , 我 们 在 初 
始 特征 集合 中 包括 了 身高 和 体重 , 那 就 可 能 出 现 这 样 的 情况 。 尽管 身高 和 体重 都 不 能 对 心脏 病 具 
有 较 高 的 预测 能 力 , 但 是 身体 质量 指数 ( BMI ) 却 是 一 个 非常 好 的 特征 。 虽然 BMI 可 以 通过 身高 
和 体重 计算 出 来 , 但 是 这 个 关系 ( 以 千克 为 单位 的 体重 除 以 以 米 为 单位 的 身高 的 平方 ) 太 复杂 了 ， 
现 有 的 机 顺 学 习 技术 还 不 能 自动 地 找到 这 个 关系 。 成 功 的 机 需 学 习 过 程 经常 需 要 一 些 领域 的 专家 
来 对 特征 进行 设计 。 

在 非 监督 式 学 习 中 , 这 个 问题 更 为 环 手 。 我 们 通常 会 根据 自己 的 直觉 选择 那些 可 能 会 与 我 们 
要 寻找 的 结构 相关 的 特征 , 但 依靠 直觉 确定 那些 具有 潜在 相关 性 的 特征 是 有 问题 的 。 比 如 ,牙科 
病史 对 于 未 来 的 心脏 病 发 作 概 率 是 不 是 一 个 好 的 预测 特征 ?你 能 依靠 直觉 确定 吗 ? 
看 图 22-4 的 特征 向 量 表格 ， 以 及 与 每 个 特征 向 量 对 应 的 标签 ( 是否 是 爬行 动物 )。 





























































































































名 称 产 卵 | 鳞片 | 有 毒 | 冷血 | 腿 | 的 行动 物 
眼镜 蛇 是 有 有 是 0 是 
响尾蛇 否 有 有 是 0 是 
巨 晶 否 有 无 是 0 是 
短 吻 鳄 是 有 无 是 4 是 
箭 毒 蛙 是 无 有 否 4 否 
钾 鱼 是 无 无 是 0 否 
蟒蛇 是 无 无 是 0 是 
图 22-4 各 种 动物 的 名 称 、 特 征 和 标签 





对 于 一 个 监督 式 学 习 算法 (或 一 个 人 ) 来 说 ,如 果 只 给 定 眼镜 蛇 的 信息 ( 即 表 中 的 第 一 行 )， 
那么 它 除了 记 住 “ 眼 镜 蛇 是 爬行 动物 ”外 , 其 他 什么 也 做 不 了 。 下 面 , 我 们 再 加 上 响尾蛇 的 信 ， 
可 以 开始 归纳 并 推断 出 这 样 一 条 规则 : 如 果 一 个 动物 产 卵 、 有 鳞片 、 有 毒 、 冷 血 、 无 腿 ,那么 它 
就 是 爬行 动物 。 

现在 ， 我 们 需要 确定 巨 师 是 否 是 爬行 动物 。 回 答 是 “和 否 "”， 因 为 巨 师 既 不 有 毒 ， 也 不 产 卵 。 
但 这 是 个 错误 答案 。 当 然 , 仅 从 两 个 实例 中 归纳 的 结果 是 错误 的 ， 这 也 很 正常 。 如 果 将 巨 晴 也 加 
入 到 训练 数据 中 ， 我们 就 会 得 到 一 条 新 规则 ， 如果 一 个 动物 有 鳞片 、 冷 血 、 无 腿 ， 那么 它 就 是 疏 
行动 物 。 这 样 ， 我 们 丢弃 了 “ 产 卵 ”和 “有 毒 ” 这 两 个 特征 ， 认 为 它们 与 这 个 分 类 问题 无 关 。 

如 果 使 用 新 规则 对 短 吻 鲍 进行 分 类 ,那么 也 会 得 出 错误 结论 。 因 为 它 有 腿 ， 所 以 不 是 仆 行 动 
物 。 如 果 我 们 将 短 吻 鲍 也 加 入 训练 数据 ,那么 新 规则 就 允许 仆 行 动物 或 者 没有 腿 , 或 者 有 4 条 腿 。 
当 我 们 检查 箭 毒 蛙 时 , 就 可 以 得 出 它 “ 不 是 仆 行 动物 ”这 个 正确 结论 , 因为 它 不 是 冷血 的 。 但 是 ， 
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Qz 因为 特征 经 常 在 彼此 之 间 是 高 度 相 关 的 ， 所 以 这 种 方法 可 能 导致 大 量 宛 余 特征 。 还 有 更 加 复杂 的 特征 消除 技 
术 , 但 本 书 不 做 介绍 。 
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当 我 们 使 用 现 有 规则 分 类 钙 鱼 时 ,又 错误 地 认为 驴 鱼 是 爬行 动物 。 虽 然 我 们 可 以 继续 增加 规则 的 
复杂 度 来 区 分 钙 鱼 和 短 吻 鲜 , 但 最 终 还 是 无 济 于 事 , 因为 我 们 无 法 通过 修改 规则 来 正确 分 类 链 鱼 
和 蟒蛇 ， 这 两 种 生物 的 特征 向 量 是 完全 一 样 的 。 

这 种 问题 在 机 器 学 习 中 再 正常 不 过 了 ,特征 向 量 包 含 足 够 信息 来 完美 地 进行 分 类 的 情况 是 非 
常 罕见 的 。 这 种 情况 下 ， 问 题 就 在 于 我 们 没有 足够 的 特征 。 

如 果 加 入 一 个 事实 : 扑 行 动物 的 孵 具 有 羊膜 "， 这 样 就 可 以 设计 规则 将 仆 行 动物 和 鱼 区 分 开 
来 。 不 坟 的 是 ， 多 数 机 带 学 习 实际 应 用 无 法 构造 出 具有 完美 识别 能 力 的 特征 向 量 集合 。 

既然 现 有 的 特征 都 是 噪声 ， 那 么 是 否 意味 着 我 们 应 该 放弃 ? 答案 是 否定 的 。 在 这 种 情况 下 ， 
“鳞片 ”和 “冷血 ”这 两 个 特征 是 仆 行 动物 的 必要 条 件 , 但 不 是 充分 条 件 。 如 果 有 鳞片 并 且 冷 血 ， 
那么 这 种 动物 就 是 爬行 动物 ， 这 一 规则 不 会 得 到 任何 假 阴 性 的 结果 。 也 就 是 说 , 用 这 个 规则 分 类 
得 到 的 非 疏 行 动物 肯定 不 是 疏 行 动物 。 但 它 会 得 到 一 些 假 阳性 结果 , 也 就 是 说 ,分 类 得 到 的 爬行 
动物 有 些 不 是 爬行 动物 。 


22.2 ”距离 度量 


在 图 22-4 中 , 我们 使 用 了 4 种 二 元 特征 和 1 种 整数 特征 来 描述 动物 。 假 设想 使 用 这 些 特 征 计算 
两 种 动物 之 间 的 相似 度 ， 例 如 ， 看 看 响尾蛇 与 巨 遇 更 相似 ， 还 是 与 第 毒 蛙 更 相似 。” 

完成 这 种 比较 的 第 一 步 是 ， 将 每 种 动物 的 特征 转换 为 一 个 数值 序列 。 如 果 令 True = 1、 
False = 6， 可 以 得 到 如 下 特征 向 量 : 

Rattlesnake: [1,1,1,1,6] 


Boa constrictor: [86,1,6,1,6] 
Dart frog: [1,6,1,6,4] 


比较 数值 向 量 的 相似 度 有 很 多 种 方法 ,最 常用 的 比较 等 长 向 量 的 方法 是 基于 闵可夫 斯 基 距 
离 “进行 操作 : 
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len 
distance(V, W, p)=( abs(V —W)”)"? 


这 里 的 len 是 向 量 长 度 。 
参数 p 至 少 为 1, 它 定义 了 度量 向 量 V 和 和 WW 之 间距 离 时 要 经 过 的 路 径 类 型 。" 向 量 的 长 度 为 2 时 ， 
p 的 作用 是 最 容易 表示 的 ， 因 为 可 以 使 用 笛 卡 儿 坐 标 系 表示 。 看 一 下 图 22-5。 






































@ 羊膜 是 一 种 有 保护 作用 的 外 层 结构 ， 它 使 卵 可 以 产 在 陆地 上 ， 而 不 是 必须 在 水 中 。 
@) 这 个 问题 看 上 去 很 春 ， 其 实 不 然 。 博 物 学 家 和 毒物 学 家 ( 或 某 些 想 提高 吹 箭 效率 的 人 ) 可 能 会 给 出 完全 不 同 的 






































答案 。 

@ 另 一 种 常用 的 距离 度量 是 余弦 相似 度 ， 它 体现 的 是 两 个 向 量 在 方向 上 的 差别 ， 而 不 是 在 大 小 上 的 差别 ， 多 用 于 
高 维 向 量 。 

@ 当 p = 0.5 时 ， 考 虑 这 3 个 点 : A= (0, 0)，B = (1, 1)，C = (0, 1), 计算 它们 两 两 之 间 的 距离 ， 即 A 到 B 的 距离 是 4，A 




















到 C 的 距离 是 :，C 到 B 的 距离 是 1。 根 据 常 识 ， 从 A 经 过 C 到 B 的 距离 不 可 能 小 于 从 A 直接 到 B 的 距离 。( 数学 家 称 这 
个 性 质 为 三 角 不 等 式 ， 即 对 于 任意 一 个 三 角 其 中 任意 两 条 边 的 长 度 之 和 必定 大 于 第 三 条 边 的 长 度 。 ) 
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图 22-5 ”距离 度量 的 可 视 化 
左下 角 圆 形 离 十 字 更 近 , 还 是 离 星 形 更 近 ? 这 要 看 情况 。 如 果 我 们 可 以 沿 着 直线 行进 , 那么 














十 字 更 近 。 根 据 匀 股 定理 ， 十 字 与 圆 形 之 间 的 距离 是 8 的 平方 根 ， 


























大 约 等 于 2.8， 而 我 们 可 以 非常 


容易 地 看 出 星 形 和 圆 形 之 间 的 距离 是 3。 这 种 距离 度量 方式 称 为 欧 氏 距离 , 对 应 于 p=2 的 闵可夫 斯 

















基 距 离 。 但 是 , 如 果 将 图 中 的 线段 想象 成 街道 ， 





并 且 必 须 





经 过 街道 才能 从 一 个 地 方 到 达 另 一 个 地 

















方 , 那么 星 形 和 圆 形 之 间 的 距离 仍旧 是 3， 但 十 字 与 圆 形 之 间 的 距离 则 变 成 了 4。 
式 称 为 曼哈顿 距离 ", 对 应 于 p=1 的 闵可夫 斯 基 距 离 。 图 22-6 给 出 





这 种 距离 度量 方 
斯 基 距 离 的 函数 。 














一 个 实现 闵可夫 








图 22-7 包 含 
氏 距 离 Le 


一 个 Animal 类 


def minkowskiDist (v1, v2, p): 
"假设 V1 和 v2 是 两 个 等 长 的 数值 型 数组 
返回 v1 和 V2 之 间 阶 为 p 的 阅 可 夫 斯 基 距 离 """ 
dist = 60.0 
for i in range(len(v1)): 
dist += abs(v1[i] - v2[i])**p 
return dist**(1/p) 














图 22-6 ”闵可夫 斯 基 距 离 





, 将 两 种 动物 之 间 的 距离 定义 为 两 种 动物 对 应 的 特征 








class Animal(obJject) : 

def _ init (self, name, features): 
”" 假 设 name 是 字符 串 ; features 是 数值 型 列表 "" 
self.name = name 
self.features = pylab.array(features) 
def getName(self) : 
return self.name 


def getFeatures(self): 
Peturn self.features 


def distance(self, other): 
"" 假 设 other 是 Animal 类 型 的 对 象 


返回 self 与 other 的 特征 向 量 之 间 的 欧 民 距离 """ 


return minkowskiDist(self.getFeatures()， 
other .getFeatures()， 


2) 








图 22-7 Animal 类 





@ 曼哈顿 岛 是 纽约 人 口 最 为 密 
离 可 以 非常 好 地 描 立 






































的 行政 区 。 岛 上 大 部 分 地 区 的 街道 都 是 棋 
述 从 一 个 地 方 走 到 男 一 个 地 方 的 情形 。 不 过 在 曼 











盘 式 布局 。 所 以 p = 1 时 的 闵可夫 
哈 顿 开车 就 完全 是 两 码 引 





和 了。 
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F 向 量 之 间 的 欧 
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图 22-8 中 的 函数 对 一 些 动物 进行 了 比较 ,并 将 它们 之 间 的 距离 列 在 了 一 个 表格 中 。 函 数 代 码 
使 用 了 一 种 我 们 以 前 没有 用 过 的 Pylab 绘 图 功能 : table。 











def compareAnimals(animals, precision): 
""" 假 设 animals 是 动物 列表 ，precision 是 非 负 整数 
建立 一 个 表格 ， 表 示 每 种 动物 之 间 的 欧 氏 距离 """ 
# 获 取 行 标签 和 列 标签 
columnLabels = [] 
for a in animals : 
columnLabels.append(a.getName()) 
rowLabels = columnLabels[:] 
tableVals = [] 
# 计 算 动物 之 间 的 距离 
# 对 每 一 行 
for al in animals : 
row = [] 
# 对 每 一 列 
for a2 in animals: 
if al == a2: 
row.append('--') 
else: 
distance = al.distance(a2) 
row.append(str(round(distance, precision))) 
tableVals .append(row) 


# 生 成 表格 

table = pylab.table(rowLabels = rowLabels, 
colLabels = columnLabels, 
cellText = tableVals, 
cellLoc = 'center', 
loc = 'center', 


colWidths = [6.2]*len(animals)) 
table.scale(1, 2.5) 
pylab.savefig('distances') 


图 22-8 ”建立 动物 彼此 之 间距 离 的 表格 


table 函 数 会 生成 一 张 像 表格 一 样 的 图 ( 这 真是 个 惊喜 ! )。 关 键 字 参数 rowLabels 和 
colLabels 提 供 了 表格 中 行 和 列 的 标签 ( 本 例 中 是 动物 名 称 )。 关 键 字 参数 cellText 提 供 了 表格 
中 各 个 单元 格 的 值 。 在 本 例 中 ，cellText 与 tableVals 进 行 了 绑 定 ，tablevVals 是 一 个 由 字符 串 
列表 组 成 的 列表 ， 其 中 的 每 个 元 素 都 是 一 个 列表 ， 对 应 表格 中 一 行 单元 格 的 值 。 关 键 字 参数 
cellLoc 指 定 文本 在 每 个 单元 格 中 的 位 置 ， 关 键 字 参数 Loc 指 定 表格 本 身 的 位 置 。 本 例 中 使 用 的 
最 后 一 个 关键 字 参 数 是 colWidth， 它 绑 定 了 一 个 浮 点 数列 表 ， 给 出 了 表格 中 每 列 的 宽度 (单位 
为 英寸 ) 代码 table.scale(1, 2.5) 告 诉 PyLab 将 单元 格 的 水 平 宽度 保持 不 变 , 但 是 将 垂直 高 度 
放大 2.5 倍 〈 为 了 美观 )。 

执行 以 下 代码 : 


rattlesnake = Animal('rattlesnake', [1,1,1,1,06]) 
boa = Animal('boa\nconstrictor', [8,1,08,1,06]) 
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dartFrog = Animal('dart frog'，[1,6,1,6,4]) 
animals = [rattlesnake, boa, dartFrog] 
compareAnimals(animals, 3) 


会 生成 图 22-9 中 的 表格 ， 并 将 其 保存 到 distances 文 件 。 











响尾蛇 巨 师 箭 毒 蛙 
4.243 





4.472 


箭 毒 蛙 4.243 4.472 3 











图 22-9 ”三 种 动物 之 间 的 距离 








不 出 所 料 ， 响尾蛇 与 巨 量 之 间 的 距离 要 小 于 这 两 种 蛇 与 篆 毒 蛙 之 间 的 距离 。 








毒 蛙 与 响尾蛇 之 间 的 距离 要 比 巨 师 近 一 点 。 
在 上 面 代码 的 最 后 一 行 之 前 插入 以 下 代码 : 


alligator = Animal('alligator', [1,1,8,1,4]) 
animals.append(alligator) 


会 生成 图 22-10 中 的 表格 。 























4.123 4.123 1.732 





图 22-10 ”四 种 动物 之 间 的 距离 


4.123 


4.123 


L732 





顺便 说 一 下 





你 可 能 会 非常 惊讶 ， 短 吻 鳄 与 箭 毒 星之 间 的 距离 要 明显 小 于 它 与 响尾蛇 和 巨 师 之 间 的 距离 。 





请 花 点 时 间 思 考 原因 。 











短 吻 鲁 的 特征 向 量 与 响尾蛇 的 特征 向 量 有 两 处 不 同 : 是 否 有 毒 和 腿 的 数量 。 短 吻 鲍 的 特征 向 















































量 与 箭 毒 星 的 特征 向 量 有 三 处 不 同 : 是 否 有 毒 、 是 否 有 鳞片 和 是 否 冷 血 。 但 是 











量 方 式 ， 相 对 于 响尾蛇 ， 短 吻 鳞 却 与 箭 毒 蛙 更 相似 ， 这 是 为 什么 呢 ? 














问题 的 根源 在 于 ， 不 同类 型 的 特征 有 不 同 的 取 值 范围 。 只 有 腿 的 数量 范围 











按照 我 们 的 距离 度 




















是 0~4， 其 余 所 有 


特征 都 是 0 或 1。 这 说 明 计算 欧 氏 距离 时 ， 腿 的 数量 这 个 特征 获得 了 太 大 权重 。 如 果 将 这 个 特征 也 
转换 为 二 元 特征 ， 即 动物 没有 腿 时 的 值 为 9%， 其 他 情况 为 1， 我 们 再 来 看 看 情况 如 何 。 
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2.236 1.414 


图 22-11 使 用 另 一 种 特征 表示 时 的 距离 























这 样 看 上 去 就 合理 多 了 。 
当然 ， 只 使 用 二 元 特征 有 时 也 存在 问题 。 在 23.4 节 ， 我 们 会 介绍 一 种 更 通用 的 方法 来 处 理 特 
征 之 间 的 规模 差异 。 


























非 监督 式 学 习 的 主要 任务 是 找 出 隐藏 在 未 标注 数据 中 的 结构 。 最 常用 的 非 监督 式 机 器 学 习 方 
聚 类 可 以 定义 为 对 多 个 对 象 的 一 种 分 组 过 程 ， 这 个 过 程 使 得 组 中 成 员 在 某 种 形式 上 是 相似 
的 。 关 键 的 问题 就 是 定义 “相似 ”的 含义 。 图 23-1 表 示 13 名 人 员 的 身高 、 体 重 和 衬衫 的 颜色 。 

















图 23-1 身高、 体重 和 衬衫 类 型 


如 果 按 照 身高 对 人 员 进 行 聚 类 , 很 明显 可 以 得 到 由 水 平 虚线 分 隔 的 两 个 徐 。 如 果 按 照 体重 对 














人 员 进 行 聚 类 ,也 可 以 很 明显 地 得 到 由 垂直 实 线 分 隔 的 两 个 簇 。 还 可 以 有 第 三 种 聚 类 方法 ， 即 按 
照 衬衫 类 型 对 人 员 进 行 聚 类 ,这 时 可 以 由 两 条 组 成 角度 的 短 划 线 进行 分 隔 。 顺 便 说 一 下 ， 最 后 一 
种 分 隔 不 是 线性 的 ， 也 就 是 说 ， 我 们 不 能 使 用 一 条 单一 的 直线 将 人 员 按照 衬衫 类 型 区 分 开 来 。 

聚 类 是 一 个 最 优化 问题 , 它 的 目标 是 在 一 组 约束 条 件 的 限制 下 找到 一 组 簇 , 使 目标 函数 最 优 
化 。 进 行 聚 类 时 ,我 们 要 先 确 定 一 种 距离 度量 方式 ， 用 来 确定 两 个 实例 之 间 的 相似 程度 。 还 要 定 
义 一 个 目标 函数 , 使 得 同一 个 簇 中 的 实例 之 间 的 距离 最 小 。 也 就 是 说 , 使 得 同一 个 簇 中 的 实例 之 
间 的 相 异 度 最 小 。 

可 以 用 变异 度 测 量 单个 簇 c 中 实例 彼此 之 间 的 差异 程度 : 

variability(c) = > distance(mean(c), e) 


这 里 的 mean(c) 是 簇 中 所 有 实例 的 特征 变量 的 均值 。 多 个 向 量 的 均值 是 按照 它们 的 分 量 来 计算 的 ， 
需要 将 向 量 中 对 应 的 元 素 加 在 一 起 ， 再 除 以 向 量 的 个 数 。 如 果 v1 和 v2 是 数值 型 的 数组 ,那么 表达 
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式 (V1 +Yv2)/2 的 值 就 是 它们 的 欧 氏 均值 。 
这 里 所 说 的 变异 度 和 第 15 章 中 方差 的 概念 非常 相似 , 差别 在 于 , 变异 度 没有 使 用 簇 的 大 小 进 
行 标准 化 ， 所 以 当 簇 中 的 实例 比较 多 时 , 徐 的 变异 度 就 会 比较 大 。 如 果 想 比较 两 个 大 小 不 同 的 簇 
的 一 致 性 ， 就 需要 用 两 个 簇 的 差异 度 分 别 除 以 两 个 徐 的 大 小 。 
变异 度 描 述 的 是 单个 簇 内 的 差异 ， 它 可 以 扩展 为 描述 一 个 簇 集合 C 的 差异 的 相 异 度 : 
dissimilarity(C) = > variability(c) 


ceC 









































请 注意 ， 因 为 没有 用 变异 度 除 以 艇 的 大 小 ， 所 以 相对 于 小 的 紧密 的 艇 ,更 大 更 分 散 的 艇 会 使 
dissimilarity(C) 的 值 增加 得 更 多 。 相 异 度 要 的 就 是 这 种 效果 。 

那么 , 最 优化 问题 就 是 找到 一 个 簇 集合 C， 使 得 dissimilarity(C) 的 值 最 小 吗 ? 不 完全 是 。 因 为 
这 个 最 小 化 非常 容易 实现 , 只 要 将 每 个 实例 分 成 一 个 复 即 可 。 我 们 需要 加 入 一 些 限制 条 件 。 例如 ， 
可 以 限制 复 之 间 的 最 小 距离 ， 或 者 要 求 复 的 最 大 数量 为 F。 

一 般 来 说 , 我 们 感 兴趣 的 大 多 数 问题 是 不 能 靠 计 算 求 出 最 优 解 的 , 所 以 只 能 依靠 贪 楚 算法 找 
出 近似 解 。23.2 节 提供 了 K 均 值 聚 类 方法 ， 但 是 我 们 要 先 介绍 一 些 抽象 类 ， 可 以 使 用 它们 实现 上 
面 所 说 的 算法 (以 及 其 他 聚 类 算法 )。 
























































23.1 cluster 类 


Example 类 用 来 建立 要 进行 聚 类 的 实例 ， 如 图 23-2 所 示 。 对 于 每 个 实例 ， 都 有 一 个 名 称 、 一 
个 特征 向 量 和 一 个 可 选 的 标签 。distance 方 法 返回 两 个 实例 之 间 的 欧 氏 距离 。 














class Example(object): 


def _ init (self, name, features, label = None): 
# 假 设 features 是 一 个 浮上 点数 数组 
self.name = name 
self.features = features 
self.label = label 


def dimensionality(self): 
return len(self.features) 


def getFeatures(self) : 
return self.features[:] 


def getLabel(self): 
return self.1label 


def getName(self): 
return self.name 


def distance(self, other): 
return minkowskiDist(self.features, other.getFeatures(), 2) 


def _ str_(self): 
return self.name +':'+ str(self.features) + ':'\ 
+ str(self.1label) 

















图 23-2” Example 类 
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图 23-3 中 的 cluster 类 稍微 有 点 复 森 。 簇 就 是 实例 的 集合 。 cluster 类 中 两 个 比较 有 趣 的 方法 
是 computeCentroid 和 variability。 可 以 将 篮 的 质心 看 作 其 质量 中 心 。computeCentroid 会 返 
回 一 个 实例 ， 这 个 实例 的 特征 向 量 等 于 复 中 实例 的 特征 向 量 的 欧 氏 均 值 。variability 方 法 返回 
禾 的 变异 度 ， 可 以 用 来 衡量 复 的 一 致 性 。 














class Cluster(object): 


def _ init (self, examples): 
"" "假设 eXamples 是 一 个 非 空 的 Example 类 型 列表 """ 
self.examples = examples 
self.centroid = self.computeCentroid() 


def update(self, examples): 
"" "假设 examples 是 一 个 非 空 的 Example 类 型 列表 
替换 exampJes; 返回 发 生变 化 的 质心 数量 """ 
oldCentroid = self.centroid 
self.examples = examples 
self.centroid = self.computeCentroid() 
return oldCentroid.distance(self.centroid) 


def computeCentroid(self): 
vals = pylab.array([6.6]*self.examples[6].dimensionality()) 
for e in self.examples: # 计 算 均 值 
vals += e.getFeatures() 
centroid = Example('centroid', vals/len(self.examples)) 
return centroid 


def getCentroid(self): 
return self.centroid 


def variability(self): 
totDist = 6.6 
for e in self.examples: 
totDist += (e.distance(self.centroid))**2 
return totDist 


def members(self): 
for e in self.examples: 
yield e 


def _ str_ (self): 

names = [] 
for e in self.examples: 

names .append(e.getName()) 
names.sort() 
result = 'Cluster with centroid '\ 

+ str(self.centroid.getFeatures()) + 

for e in names: 

result = result + e+ ', " 
return result[:-2] # 除 去 末尾 的 过 号 和 空格 


contains:\n 











图 23-3 ”Cluster 类 
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23.2 上 均值 聚 类 









































K 均 值 聚 类 可 能 是 使 用 最 广泛 的 聚 类 方法 "。 它 的 目标 是 将 一 个 实例 集合 划分 为 K 个 复 , 使得: 


口 对 于 簇 中 的 每 个 实例 ， 这 个 入 的 质心 都 离 这 个 实例 最 近 ; 
口 由 这 k 个 入 组 成 的 簇 集合 的 相 异 度 最 小 。 






































不 幸 的 是 ,在 一 个 大 数据 集合 上 找 出 这 个 问题 的 最 优 解 在 计算 上 是 不 可 行 的 。 和 幸运 的 是 , 有 
一 种 非常 有 效 的 贪 焚 算 法 "可 以 找到 非常 好 的 近似 解 。 这 种 算法 由 伪 代 码 描述 如 下 。 


随机 选择 k 个 实例 作为 初始 的 簇 质 心 

一 直 重 复 以 下 步 又 : 

(1) 将 每 个 实例 都 分 配给 距离 最 近 的 质心 ， 建 立 k 个 簇 ; 
(2) 对 每 个 簇 中 的 所 有 实例 取 均 值 ， 计 算出 个 新 质心 ; 








(3) 如 果 所 有 质心 都 与 上 一 次 迭代 时 相同 ， 则 返回 当前 的 艇 集合。 
第 一 个 步骤 的 复杂 度 是 O(K*n*q)， 其 中 k 是 徐 的 数量 ，n 是 实例 的 数量 ，a 是 计算 两 个 实例 
之 间 的 距离 所 需 的 时 间 。 第 二 个 步骤 的 复杂 度 是 O(n)， 第 三 个 步骤 的 复杂 度 是 O( 有 。 所 以 ,一 







































































次 迭代 的 复杂 度 是 O(K*n*q)。 如 果 比 较 实例 时 使 用 的 是 闵可夫 








斯 基 距 离 ， 那 么 4 就 与 向 量 长 度 





成 线性 关系 "。 当 然 ， 整 个 算法 的 复杂 度 依 赖 于 迭代 次 数 ， 这 个 就 不 太 容易 确定 了 ， 只 能 说 一 





般 都 比较 少 。 








K 均 值 算法 的 一 个 问题 是 ， 最 后 的 返回 值 严 重 依赖 于 初始 随机 选择 的 质心 集合 。 如 果 选 择 了 
一 组 非常 糟糕 的 初始 质心 ， 那 么 算法 得 到 的 局 部 最 优 解 会 严重 偏离 全 局 最 优 解 。 在 实际 使 用 中 ， 
解决 这 个 问题 的 一 般 方法 是 , 多 次 选择 初始 质心 集合 以 多 次 运行 K- 均 值 算法 , 然后 选择 使 徐 集 合 











相 异 度 最 小 的 那个 解 。 











图 23-4 中 的 函数 trykmeans 多 次 调用 函数 kmeans (参见 图 23-5 )， 并 选择 相 异 度 最 小 的 结果 。 
如 果 kmeans 函 数 生成 一 个 空 的 簇 集合 从 而 引起 异常 ，trykmeans 就 重新 进行 调用 ,假定 最 终 





kmeans 会 选择 一 个 能 成 功 收敛 的 初始 质心 集合 。 














别 是 层次 聚 类 和 EM 聚 类 。 























QO 尽管 K 均 值 聚 类 可 能 是 最 常用 的 聚 类 方法 ， 但 它 并 不 适用 于 所 有 场合 。 还 有 两 种 本 书 中 没有 介绍 的 常用 方法 ， 分 EE 




















@) 最 常用 的 K 均 值 算法 由 集 姆 斯 ， 麦 奎 恩 提出 ，1967 年 首次 发 布 。 但 是 ， 早 在 20 世 纪 50 年 代 就 有 很 多 其 他 的 K 均 值 























聚 类 方法 得 到 使 





zz 





o 





























@) 不 幸 的 是 ， 在 很 多 实际 应 用 中 ， 我 们 需要 使 用 其 他 距离 度量 方式 ， 比 如 推土机 距离 或 动态 时 间 弯 曲 距离 ， 这 些 距 


离 的 计算 复杂 度 更 高 。 
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def dissimilarity(clusters): 
totDist = 6.6 
for c in clusters : 
totDist += c.variability() 
return totDist 


def trykmeans(examples, numClusters, numTrials, verbose = False): 
"" "调用 kmeans 孔 数 numTrials 次 ， 返 回 相 异 度 最 小 的 结果 """ 
best = kmeans(examples, numClusters, verbose) 
minDissimilarity = dissimilarity(best) 
trial = 1 
while trial < numTrials: 
try: 
clusters = kmeans(examples, numClusters, verbose) 
except ValueError: 
continue # 如 果 失 败 ， 则 重 试 
currDissimilarity = dissimilarity(clusters) 
if currDissimilarity < minDissimilarity: 
best = clusters 
minDissimilarity = currDissimilarity 
trial += 1 
return best 











图 23-4 ” 找 出 最 好 的 K 均 值 聚 类 结果 


图 23-5 中 的 代码 将 对 K 均 值 算法 的 伪 代 码 描述 翻译 为 Python 语 言 。 唯 一 的 不 同 是 ， 当 某 次 迭 
代 生 成 一 个 空 簇 时 ,会 引发 一 个 异常 。 生 成 空 篮 是 很 罕见 的 ， 它 不 会 发 生 在 第 一 次 迭代 中 , 但 会 
发 生 在 随后 的 迭代 中 。 当 太 大 ， 或 者 对 初始 质心 的 选择 太 差 时 ， 经 常会 出 现 空 簇 。 将 空 簇 按照 
错误 处 理 是 Matlab 使 用 的 一 种 处 理 方法 ， 另 外 一 种 处 理 方法 是 创建 一 个 新 复 ， 其 中 只 有 一 个 点 ， 
这 个 点 距离 其 他 得 的 质心 最 远 。 为 了 使 算法 实现 更 简单 ， 我 们 选择 将 其 按照 错误 进行 处 理 。 


23.3 ”虚构 示例 


图 23-7 中 的 代码 从 两 种 分 布 中 提取 实例 ， 然 后 对 实例 进行 生成 、 绘 制 和 聚 类 。 

函数 genDistributions 生 成 一 个 列表 , 其 中 包含 "个 实例 , 每 个 实例 都 有 一 个 二 维特 征 向 量 。 
特征 向 量 中 的 元 素 值 都 来 自 正 态 分 布 。 

函数 plotsamples 可 以 绘制 出 一 组 实例 的 特征 向 量 。 它 使 用 pylab.annotate 在 图 形 中 点 的 旁 
边 放置 文本 ， 这 个 函数 的 第 一 个 参数 是 要 放置 的 文本 ， 第 二 个 参数 是 与 文本 相对 应 的 点 ,第 三 个 
参数 是 文本 与 点 的 相对 位 置 。 

函数 contrivedTest 使 用 genDistributions 创 建 两 个 分 布 , 每 个 分 布 中 有 10 个 实例 ( 两 个 分 
布 的 标准 差 相 同 , 但 均值 不 同 )， 并 使 用 plotsamples 绘 制 出 这 些 实例 ,然后 使 用 trykmeans 对 其 
进行 聚 类 。 

调用 contrivedTest(1，2，True) 绘 制图 23-6， 并 输出 图 23-8。 
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def kmeans(examples, k, verbose = False): 
# 随 机 选取 K 个 初始 质心 ， 为 每 个 质心 创建 一 个 族 
initialCentroids = random.sample(examples, Kk) 
clusters = [] 
for e in initialCentroids: 
clusters.append(Cluster([e])) 


# 壬 代 ， 直 至 质心 不 再 改变 
converged = False 
numIterations = 6 
while not converged: 
numIterations += 1 
# 创 建 一 个 列表 ， 包 含 k 个 不 同 的 空 列表 
newClusters = [] 
for i in range(k): 
newClusters.append([]) 


# 将 每 个 实例 分 配给 最 近 的 质心 
for e in examples: 
# 找 到 离 e 最 近 的 质心 
smallestDistance = e.distance(clusters[6].getCentroid()) 
index = 6 
for i in range(1, k): 
distance = e.distance(clusters[i].getCentroid()) 
if distance < smallestDistance: 
smallestDistance = distance 
index = i 
# 将 e 添 加 到 相应 禾 的 实例 列表 
newClusters[index].append(e) 


for c in newClusters: #Avoid having empty clusters 
if len(c) == 6: 
raise ValueError('Empty Cluster') 


# 更 新 每 个 族 ; 检查 质心 是 否 变 化 
converged = True 
for i in range(k): 
if clusters[i].update(newClusters[i]) > 6.6: 
converged = False 
if verbose: 
print('Iteration #' + str(numIterations)) 
for c in clusters: 
print(c) 
print('') #add blank line 
return clusters 











图 23-5 KK 均值 聚 类 
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图 23-6 来 自 两 种 分 布 的 实例 








def genDistribution(xMean, xSD, yMean, ySD, n, namepPrefix): 
samples = [] 
for s in range(n): 
x = random.gauss(xMean, xSD) 
y = random.gauss(yMean, ySD) 
samples.append(Example(nameprefix+str(s), [x, y])) 
return samples 


def plotSsamples(samples, marker): 
xVals, yVals = [], [] 
for s in samples: 
x = s.getFeatures()[0] 
y = s.getFeatures()[1] 
pylab.annotate(s.getName(), xy = (x, y), 
xytext = (x+0.13, y-0.067), 
fontsize = 'x-large') 
xVals.append(x) 
yVals.append(y) 
pylab.plot(xVals, yVals, marker) 


def contrivedTest(numTrials, k, verbose = False): 
xMean = 3 
XSD = 1 
yMean = 5 
ySD = 1 
n= 16 
d1Samples = genDistribution(xMean, xSD, yMean, ysSD, n, 'A') 
plotSamples(d1Samples， 'k^') 
d2Samples = genDistribution(xMean+3, xSD, yMean+1, ysSD, n, 'B') 
plotSsamples(d2Samples, 'ko') 
clusters = trykmeans(diSamples+d2Samples, k, numTrials, verbose) 
print('Final result') 
for c in clusters: 
print('', c) 











图 23-7 均值 实验 
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Iteration #1 
Cluster with centroid [ 4.71113345 5.76359152] contains: 
A0, Al, A2, A4, A5, A6, A7, A8, A9, BO, B1, B2, B3, B4, B5, B6, 
B7, B8, B9 
Cluster with centroid [ 1.97789683 3.56317655] contains: 
A3 


Iteration #2 

Cluster with centroid [ 5.46369488 6.12615454] contains: 
A0, A4, A8, A9, BO, B1, B2, B3, B4, B5, B6, B7, B8, B9 

Cluster with centroid [ 2.49961733 4.56487432] contains: 
Al, A2, A3, A5, A6, A7 


Iteration #3 

Cluster with centroid [ 5.84678727 6.36779694] contains: 
A0, A8, BO, B1, B2, B3, B4, B5, B6, B7, B8, B9 

Cluster with centroid [ 2.67499815 4.67223977] contains: 
A1l, A2, A3, A4, A5, A6, A7, A9 


Iteration #4 

Cluster with centroid [ 5.84678727 6.36779694] contains: 
A0, A8, BO, B1, B2, B3, B4, B5, B6, B7, B8, B9 

Cluster with centroid [ 2.67499815 4.67223977] contains: 
A1l, A2, A3, A4, A5, A6, A7, A9 


Final result 

Cluster with centroid [ 5.84678727 6.36779694] contains: 
A0, A8, BO, B1, B2, B3, B4, B5, B6, B7, B8, B9 

Cluster with centroid [ 2.67499815 4.67223977] contains: 
Al, A2, A3, A4, A5, A6, A7, A9 

















图 23-8 ”调用 contrivedTest(1，2，True) 输 出 的 结果 


请 注意 ,初始 ( 随机 选择 的 ) 质心 导致 了 一 个 高 度 偏离 的 聚 类 结果 ， 一 个 复 中 几乎 包含 了 所 
有 点 ， 只 有 一 个 点 除外 。 但 是 经 过 4 次 迭代 ， 质 心 发 生 改 变 ， 使 得 来 自 两 个 分 布 中 的 点 被 合理 地 
划分 到 两 个 艇 中 。 仅 有 的 “错误 ”是 A0 和 A8。 

如 果 调 用 contrivedTest(56，2，False) 进 行 50 次 实验 ， 而 不 是 1 次 ， 代 码 会 输出 : 


Final result 

Cluster with centroid [ 2.74674463 4.97411447] contains: 
Al, A2, A3, A4, A5, A6, A7, A8, A9 

Cluster with centroid [ 6.6698851 6.26948962] contains : 
A6，B6，B1，B2，B3，B4，B5，B6，B7，B8，B9 


A0 还 是 与 B 混 在 一 起 ,但 是 A8 被 挑 出 来 了 。 如 果 进 行 1000 次 实验 ， 结 果 仍 然 是 这 样 。 这 真 令 
我 们 始 料 未 及 ， 因 为 从 图 23-6 来 看 ， 如 果 选 择 A0 和 B0 为 初始 质心 ( 在 1000 次 实验 中 ， 这 是 完 
全 可 能 的 ), 那么 在 第 一 次 迭代 中 ,就 可 以 得 到 将 A 和 B 完 美 区 分 开 的 两 个 徐 。 然而, 在 第 二 次 
过 代 中 要 计算 新 的 质心 ， A0 就 被 分 配 到 一 个 由 B 值 组 成 的 簇 。 这样 不 好 吗 ” 回 忆 一 下 , 聚 类 是 
一 种 非 监 督 式 学 习 方 法 , 它 的 目标 是 在 未 标注 数据 中 发 现 隐 含 的 结构 。 所 以 , 将 A0 分 到 B 组 中 
也 情 有 可 原 。 

使 用 K 均 值 聚 类 时 ， 一 个 关键 的 问题 是 如 何 选择 kK。 图 23-9 中 的 函数 contrivedTest2 从 3 种 有 
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合 的 高 斯 分 布 中 选取 一 些 点 来 进行 生成 、 绘 制 和 聚 类 。 通 过 这 个 函数 ， 我 们 看 看 不 同 的 K 值 对 
类 结果 的 影响 。 这 些 数据 点 如 图 23-10 所 示 。 
def contrivedTest2(numTrials, k, verbose = False): 

xMean = 3 

XSD = 1 

yMean = 5 

ySD = 1 

n=8 

d1Samples = genDistribution(xMean,xSD, yMean, ySD, n, 'A') 

plotSamples(d1Samples， 'k^') 

d2Samples = genDistribution(xMean+3,xSD,yMean, ysSD, n, 'B') 

plotSamples(d2Samples, 'ko') 

d3Samples = genDistribution(xMean, xSD, yMean+3, ySD, n, 'C') 


plotSamples(d3Samples, 'kx') 
clusters = trykmeans(diSamples + d2Samples + d3Samples， 
k, numTrials, verbose) 
pylab.ylim(0,11) 
print('Final result has dissimilarity', 
round(dissimilarity(clusters), 3)) 
for c in clusters: 
print('', c) 








图 23-9 ”从 3 种 分 布 中 生成 数据 点 
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图 23-10 来 自 3 种 有 重合 的 高 斯 分 布 的 数据 点 
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调用 contrivedTest2(46，2) ， 会 输出 : 


Final result has dissimilarity 98.128 

Cluster with centroid [ 5.5884966 4.43268236] contains : 
A.6，A.3，A.5，B.6，B.1，B.2，B.3，B.4，B.5，B.6，B.7 

Cluster with centroid [ 2.86949911 7.11735738] contains : 
A.1, A.2, A.4, A.6, A.7, C.0, C.1, C.2, C.3, C.4, C.5, C.6, C.7 
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调用 contrivedTest2(46，3) ， 会 输出 : 


Final result has dissimilarity 42.757 

Cluster with centroid [ 7.66239972 3.55222681] contains : 
B.6，B.1，B.3，B.6 

Cluster with centroid [ 3.56967939 4.95767576] contains : 
A.6，A.1，A.2，A.3，A.4，A.5，A.7，B.2，B.4，B.5，B.7 
Cluster with centroid [ 3.12683699 8.66683681] contains : 
A.6, C.0, C.1, C.2, C.3, C.4, C.5, C.6, C.7 


调用 contrivedTest2(46，4) ， 会 输出 : 


Final result has dissimilarity 11.441 

Cluster with centroid [ 2.16966238 4.99452866] contains : 
A.1，A.2，A.4，A.7 

Cluster with centroid [ 4.92742554 5.66669442] contains : 
B.2，B.4，B.5，B.7 

Cluster with centroid [ 2.86974427 9.66386549] contains : 
C.0, C.6, C.7 

Cluster with centroid [ 3.27637435 7.28932247] contains: 
A.6, C.1, C.2, C.3, C.4, C.5 

Cluster with centroid [ 3.76472653 4.64178835] contains: 
A.0, A.3, A.5 

Cluster with centroid [ 7.66239972 3.55222681] contains: 
B.6，B.1，B.3，B.6 


最 后 一 种 聚 类 的 拟 合 最 为 紧密 ， 也 就 是 说 ， 聚 类 结果 的 相 异 度 最 低 (11.441 )。 这 是 否 意味 
着 它 就 是 “最 好 ”的 聚 类 呢 ? 不 一 定 。 回 忆 一 下 18.1.1 节 ， 介 绍 线性 回归 时 ， 我 们 发 现 通过 增加 
多 项 式 的 阶 数 可 以 得 到 更 复杂 的 模型 ， 对 数据 的 拟 合 效 果 也 更 好 。 我 们 还 发 现 , 增加 多 项 式 阶 数 
时 ， 必 须要 冒 一 种 风险 ， 即 模型 的 预测 值 非常 糟糕 ， 因 为 它 对 数据 过 拟 合 。 

选择 合适 的 x 值 时 ， 与 选择 合适 的 多 项 式 阶 数 非常 类 似 。 提 高 值 时 ， 可 以 降低 相 异 度 , 但 有 
过 拟 合 的 风险 。( 当 k 等 于 要 进行 内 类 的 实例 数量 时 , 相 异 度 可 以 为 0! ) 如 果 我 们 掌握 了 实例 生成 
信息 , 例如 是 从 m 个 分 布 中 选取 的 , 那么 就 可 以 根据 这 种 信息 选择 # 的 值 。 如 果 没 有 这 种 信息 ， 那 
么 可 以 通过 各 种 启发 式 过 程 选择 FE， 但 这 已 经 超出 了 本 书 的 范围 。 


23.4 ”更 真实 的 示例 


不 同 种 类 的 哺乳 动物 有 不 同 的 饮食 习惯 。 有 些 种 类 ( 如 大 象 和 河 狸 ) 只 吃 植物 ， 有 些 种 类 ( 如 
狮子 和 老虎 ) 只 吃 肉 , 还 有 一 些 种 类 ( 如 猪 和 人 类 ) 只 要 能 入 口 就 什么 都 吃 。 只 吃素 食 的 称 为 草食 
动物 ， 只 吃 肉 的 称 为 肉食 动物 ， 什 么 都 吃 的 称 为 杂食 动物 。 

经 过 干 百年 的 进化 (或 某 些 其 他 神秘 的 过 程 )， 每 种 动物 都 已 经 具有 了 适合 它们 喜欢 的 食物 的 
牙齿 。 这 就 引发 了 一 个 问题 , 能 和 否 按照 动物 的 齿 系 进行 聚 类 , 使 聚 类 结果 符合 它们 的 饮食 习惯 呢 ? 

图 23-11 给 出 一 个 文件 ， 其 中 列 出 了 一 些 哺乳 动物 的 名 称 、 齿 式 〈 前 8 个 数字 )、 平均 成 年 重 
量 〈 以 磅 计 ) “和 表示 饮食 习惯 的 代码 。 文 件 上 方 的 注释 描述 了 与 每 种 哺乳 动物 所 对 应 的 项 目的 
含义 ， 例 如， 名 称 后 面 的 第 一 项 表示 上 切 牙 的 数量 。 
















































































是 根据 它们 的 牙齿 来 选择 食物 的 。 正 如 我 们 在 21.4 节 指出 的 ， 相 关 性 并 不 意味 着 因果 关系 。 
:因为 ， 作 者 不 止 一 次 地 被 提醒 过 ， 体 重 与 饮食 习惯 是 相关 的 。 
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口 
@ 此 处 提供 体重 信息 








生成 一 个 表示 文件 中 信息 的 实例 集合 





征 数量 ， 然 后 使 用 每 





# 名 称 

# 上 切 政 
# 上 火 牙 
# 前 白 苍 

# 前 磨牙 

# 下 切 牙 
# 下 犬 牙 
# 下 前 白 疮 
# 下 白 次 
# 重 量 





Badger, 3, 
Bear,3,1, 
Beaver,1, 
Brown bat 
Cat,3,1,3 
Cougar,3 


了 了 

a 

Ed 2 

Fur seal,3,1, rt nd leet Mf en a 
Grey seal,3,1,3,2,2,1,3,2 
Guinea pig,1 
Human,2,1,2 
Jaguar, 3,1 
Kangaroo, 
Lion,3,1, 
Mink,3,1, 
Mole,3,1, 
Moose,6,6 
Mouse,1,6 
4 

e 


WPPPUW- 


3 
3 
3 
4 


Pig,3,1, 
Porcupin 
Rabbit,2 


了 
小 
了 
了 
3 
3 
9 
3 
1 


Es Ea 2 Es Ea 2 2 Ea 
Squirrel,1,0,2,3,1,0,1,3,2,2 
Wolf,3,1,4,2,3,1,4,3,2 
Woodchuck,1,6,2,3,1,6， 





# 标 签 : 9= 草 食 动物 1= 肉 食 动物 “2= 杂 食 动物 








图 23-11 ”哺乳 动物 的 齿 系 








口 speciesNames 表 示 哺 乳 动物 名 称 ; 
































口 featureVals 是 由 列表 组 成 的 列表 , 其 








图 23-12 给 出 函数 readMammalData， 它 可 以 读 取 这 种 形式 的 文件 ， 并 对 文件 内 容 进 行 处 理 ， 
。 函 数 首 先 处理 文 件 开 头 的 信息 , 得 到 与 每 个 实例 相关 的 特 
生动 物 信息 建立 以 下 3 个 列表 : 








口 1abelList 表 示 与 每 个 哺乳 动物 对 应 的 标签 ; 


每 个 元 素 都 是 一 个 值 列表 , 这 个 列表 包含 所 有 哺 


乳 动 物 在 某 个 特征 上 的 取 值 。 hl. 所 有 哺乳 动物 体重 的 列表 。 表 达 式 featurevals [i][j] 
的 值 就 是 第 ;种 哺乳 动物 的 第 个 特征 的 值 。 
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readMammalData 的 最 后 一 部 分 使 用 featurevals 中 的 值 创建 一 个 特征 向 量 列表 , 其 中 的 每 个 
特征 向 量 都 对 应 一 种 哺乳 动物 。( 我 们 可 以 在 不 创建 featureVals 的 情况 下 直接 为 每 种 哺乳 动物 
创建 特征 向 量 ， 这 样 代码 更 简单 。 但 我 们 不 这 么 做 ， 因 为 在 本 节 后 面 的 内 容 中 ， 我们 要 对 
readMammalData 函 数 的 功能 做 一 些 增强 。) 

根据 readMammalData 也 数 创建 的 列表 中 的 数据 ， 图 23-12 中 的 buildMammalExamples 子 数 会 
建立 一 个 实例 列表 。 

图 23-13 中 的 testTeeth 孙 数 使 用 trykmeans 气 数 对 buildMammalExamples 建 立 的 实例 进行 聚 
类 ， 然 后 报告 每 个 徐 中 草食 动物 、 肉 食 动 物 和 杂食 动物 的 数量 。 

















def readMammalData(fName): 
dataFile = open(fName, 'r') 
numFeatures = 6 


# 处 理 文件 开头 的 那些 行 
for line in dataFile: # 找 出 特征 数量 
if line[6:6] == '# 标 签 ' # 表 示 特 征 行 结 
break 
if line[6:5] != '# 名 称 ': 


numFeatures += 1 
featureVals = [] 


# 生 成 featureVals、speciesName 和 labelList 

featureVals, speciesNames, labelList = [], [], [] 

for i in range(numFeatures): 
featureVals.append([]) 


# 继 续 处 理 文件 中 的 行 ， 从 注释 后 面 开始 

for line in dataFile: 
# 去 掉 换 行 符 ， 然 后 对 行进 行 拆 分 
dataLine = line[:-1].split(',') 
speciesNames.append(dataLine[6]) 
classLabel = dataLine[-1] 
labelList.append(classLabel) 
for i in range(numFeatures): 

featureVals[i].append(float(dataLine[i+1])) 


# 使 用 featureVals 建 立 包 含 每 个 哺乳 动物 特征 向 量 的 列表 

#for each mammal 

featureVectorList = [] 

for mammal in range(len(speciesNames)): 
featureVector = [] 
for feature in range(numFeatures): 

featureVector.append(featureVals[feature][mammal]) 

featureVectorList.append(featureVector) 

return featureVectorList, labelList, speciesNames 


def buildMammalExamples(featureList, labelList, speciesNames): 
examples = [] 
for i in range(len(speciesNames)): 
features = pylab.array(featureList[i]) 
example = Example(speciesNames[i], features, labelList[i]) 
examples.append(example) 
return examples 











图 23-12 ” 读 取 并 处 理 文件 
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def testTeeth(numClusters, numTrials): 
features, labels, species = readMammalData('dentalFormulas 
examples = buildMammalExamples(features, labels, species) 
bestClustering = trykmeans(examples, numClusters, numTrials 
for c in bestClustering: 
names = " 
for p in c.members(): 
names += p.getName() + 
print('\n' + names[:-2]) Re 
herbivores, carnivores, omnivores = 6，6，6 
for p in c.members(): 
if p.getLabel() == '0' 
herbivores += 1 
elif p.getLabel() == 
carnivores += 1 
else: 
omnivores += 1 
print(herbivores, 'herbivores,', carnivores, 'carnivores,', 
omnivores, 'omnivores') 





.txt') 


) 








图 23-13 ”对 哺乳 动物 进行 聚 类 


运行 代码 testTeeth(3，46) ， 会 输出 : 


Bear, Cow, Deer, Elk, Fur seal, Grey seal, Lion, Sea lion 
3 herbivores, 4 carnivores, 1 omnivores 


Badger, Cougar, Dog, Fox, Guinea pig, Human, Jaguar, Kangaroo, Mink, 
Mole, Mouse, Pig, Porcupine, Rabbit, Raccoon, Rat, Red bat, Skunk, 
Squirrel, Wolf, Woodchuck 

4 herbivores, 9 carnivores, 8 omnivores 


Moose 
1 herbivores, 8 carnivores, 08 omnivores 




















我 们 猜测 聚 类 结果 会 与 动物 的 饮食 习惯 有 关 , 不 过 从 以 上 结果 可 知 , 聚 类 完 
元 远 


体重 。 这 次 聚 类 的 问题 在 于 , 体重 的 取 值 范围 远 
的 欧 氏 距离 时 ， 实 际 起 作用 的 特征 只 有 体重 。 

在 22.2 节 中 , 我 们 过 到 过 一 个 类 似 的 问题 。 当 时 我 们 发 现 , 动物 之 间 的 
解决 这 个 问题 的 方法 是 将 腿 的 数量 转换 为 一 个 二 元 特征 (有 腿 或 者 没有 腿 





全 取决 于 哺乳 动物 的 


大 于 其 他 特征 的 取 值 范围 ,所 以 计算 实例 之 间 





距离 取决 于 腿 的 数量 。 
)， 这 种 方法 对 于 那个 


数据 集 来 说 很 合适 ， 因 为 正好 其 中 的 动物 或 者 没有 腿 ， 或 者 有 4 条 腿 。 但 本 例 却 没 有 一 种 好 的 方 


te 损失 大 量 信息 的 情况 下 ， 将 体重 转换 成 一 个 二 元 特征 。 





个 问题 很 常见 ， 一 般 的 解决 方法 是 对 特征 进行 缩放 ， 使 得 每 个 特征 都 均值 为 0， 标 准 差 


为 1， a 很 容易 看 出 ， 语 

















名 result = result - 




















mean 确 保 了 返回 数组 的 均值 总 是 接近 于 0。 “而 “数组 的 标准 差 总 是 为 1” 

















就 不 那么 好 理解 了 。 


可 以 通过 一 系列 宛 长 无 聊 的 代数 运算 来 说 明 标准 差 为 什么 为 1， 但 我 决定 不 做 这 件 烦人 的 事 。 








@ 均值 为 0%， 标 准 差 为 1 的 正 态 分 布 称 为 标准 正 态 分 布 。 
@@ 我 们 说 “接近 ”是 因为 浮 点 数 只 是 对 真实 值 的 一 个 近似 。 
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这 种 类 型 的 缩放 通常 称 为 Z- 缩 放 ， 因 为 正 态 分 布 有 时 也 称 为 Z- 分 布 。 
另 一 种 常用 的 缩放 方法 是 将 最 小 的 特征 值 映射 为 0, 最 大 的 特征 值 映射 为 1, 对 中 间 的 特征 值 
使 用 线性 插值 方法 ， 就 像 图 23-14 中 的 函数 iscaleFeatures 做 的 那样 。 




















def zScaleFeatures(vals): 
""" 假 设 vals 是 一 个 浮 点 数 序列 """ 
result = pylab.array(vals) 
mean = sum(result)/len(result) 
result = result - mean 
return result/stdDev(result) 


def iScaleFeatures(vals): 
""" 假 设 vals 是 一 个 浮 点 数 序 列 """ 
minVal, maxVal = min(vals), max(vals) 
fit = pylab.polyfit([minVal, maxVal], [6, 1], 1) 
return pylab.polyval(fit, vals) 











图 23-14 ”属性 缩放 


图 23-15 给 出 函数 readMammalData 的 男 一 个 版 本 ， 它 允许 使 用 与 参数 scale 绑 定 的 函数 对 特 
征 进行 缩放 。 请 注意 , 对 某 个 特征 进行 缩放 时 , 要 求 我 们 将 这 个 特征 的 所 有 值 收集 在 一 个 向 量 中 。 
图 23-15 中 的 新 版 testTeeth 也 数 提供 了 readMammalData 要 使 用 的 缩放 函数 。 只 用 两 个 参数 调用 
testTeethH 时 , testTeeth 使 用 一 个 匿名 的 恒 等 函数 调用 readMammalData, 相当 于 不 对 特征 进行 缩放 。 





























def readMammalData(fName, scale): 
Same code as in Figure 23.11 


# 生 成 featureVals、speciesName 和 labelList 
Same code as in Figure 23.11 


# 继 续 处 理 文件 中 的 行 ， 从 注释 后 面 开始 
Same code as in Figure 23.11 


# 使 用 featureVals 建 立 包 含 特征 向 量 的 列表 
# 对 于 每 个 哺乳 动物 ， 按 照 设 定 的 缩放 方式 对 特征 进行 缩放 
for i in range(numFeatures): 
featureVals[i] = scale(featureVals[i]) 
featureVectorList = [] 
for mammal in range(len(speciesNames)): 
featureVector = [] 
for feature in range(numFeatures): 
featureVector.append(featureVals[feature][mammal]) 
featureVectorList.append(featureVector) 
return featureVectorList, labelList, speciesNames 


def testTeeth(numClusters, numTrials, scale = lambda x: x): 
features, labels, species =\ 
readMammalData('dentalFormulas.txt', scale) 
examples = buildMammalExamples(features, labels, species) 








###testTeeth 汤 数 的 其 余 代码 同 图 23-13### 























图 23-15 ”允许 对 特征 进行 缩放 的 代码 
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运行 以 下 代码 : 

random.seed(@) #so two clusterings starts with same seed 
print('Clustering without scaling') 

testTeeth(3，46) 

random.seed(8) #so two clusterings starts with same seed 
print('\nClustering with z-scaling') 

testTeeth(3, 40, zScaleFeatures) 

print('\nClustering with i-scaling') 

testTeeth(3, 40, iScaleFeatures) 


会 输出 : 
Clustering without scaling 


Bear, Cow, Deer, Elk, Fur seal, Grey seal, Lion, Sea lion 
3 herbivores, 4 carnivores, 1 omnivores 


Badger, Cougar, Dog, Fox, Guinea pig, Human, Jaguar, Kangaroo, Mink, 
Mole, Mouse, Pig, Porcupine, Rabbit, Raccoon, Rat, Red bat, Skunk, 
Squirrel, Wolf, Woodchuck 

4 herbivores, 9 carnivores, 8 omnivores 


Moose 
1 herbivores, 8 carnivores, 8 omnivores 


Clustering with z-scaling 


Badger, Bear, Cougar, Dog, Fox, Fur seal, Grey seal, Human, Jaguar, 
Lion, Mink, Mole, Pig, Raccoon, Red bat, Sea lion, Skunk, Wolf 
8 herbivores, 13 carnivores, 5 omnivores 


Guinea pig, Kangaroo, Mouse, Porcupine, Rabbit, Rat, Squirrel, 
Woodchuck 
4 herbivores, 8 carnivores, 4 omnivores 


Cow, Deer, Elk, Moose 
4 herbivores, 8 carnivores, 8 omnivores 


Clustering with i-scaling 


Cow, Deer, Elk, Moose 
4 herbivores, 8 carnivores, 08 omnivores 


Badger, Bear, Cougar, Dog, Fox, Fur seal, Grey seal, Human, Jaguar, 
Lion, Mink, Mole, Pig, Raccoon, Red bat, Sea lion, Skunk, Wolf 
8 herbivores, 13 carnivores, 5 omnivores 


Guinea pig, Kangaroo, Mouse, Porcupine, Rabbit, Rat, Squirrel, 
Woodchuck 
4 herbivores, 8 carnivores, 4 omnivores 


对 特征 进行 缩放 后 的 聚 类 (〈 两 种 缩放 方法 得 到 了 相同 的 复 ) 结果 没有 基于 饮食 习惯 对 动物 进 
行 完美 区 分 , 但 这 个 结果 确实 与 动物 的 食物 是 相关 的 。 它 成 功 区 分 了 肉食 动物 和 草食 动物 , 但 对 
于 杂食 动物 没有 找到 明显 的 模式 。 这 说 明 除了 齿 系 和 体重 之 外 , 还 可 能 需要 其 他 特征 才能 将 杂食 
动物 与 其 他 两 种 动物 区 分 开 来 。 
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分 类 方法 











最 常见 的 监督 式 学 习 应 用 就 是 建立 分 类 模型 。 分 类 模型 也 称 为 分 类 器 ,用 于 对 样本 进行 标注 ， 
标明 这 个 样本 属于 一 个 有 限 的 类 别 集合 中 的 哪个 类 。 例 如 , 确定 一 封 电子 邮件 是 否 是 垃圾 邮件 就 
是 一 个 分 类 问题 。 在 相关 文献 中 ， 这 些 类 别 通常 称 为 类 〈 因 此 这 种 问题 称 为 分 类 问题 )。 我 们 可 
以 称 一 个 样本 属于 一 个 类 ， 或 者 说 它 具 有 某 个 标签 ， 这 两 种 说 法 是 一 回 事 。 

在 单 分 类 学 习 中 , 训练 集中 的 数据 仅 来 自 一 个 类 别 ， 目 标 是 学 习 一 个 模型 以 预测 某 个 样本 是 
属于 这 个 类 别 。 当 难以 找到 不 属于 这 个 类 别 的 训练 数据 时 ， 单 分 类 学 习 是 比较 有 用 的 ， 它 通常 
用 于 建立 异常 检测 机 制 ， 例 如 在 计算 机 网 络 中 检测 未 知 攻击 。 

在 二 分 类 学 习 ( 常 称 为 二 元 分 类 ) 中 , 训练 集中 的 样本 全 部 来 自 两 个 类 别 〈 通常 称 为 阳性 和 
阴性 )， 目 标 是 找到 一 个 可 以 区 分 两 个 类 别 的 边界 。 多 分 类 学 习 的 目标 则 是 找到 可 以 将 多 个 类 别 
区 分 开 来 的 边界 。 

本 童 将 介绍 两 种 广泛 使 用 的 监督 式 学 习 方 法 来 解决 分 类 问题 人 最 近邻 方法 和 回归 方法 。 介 
绍 这 些 方法 之 前 ， 我 们 先 要 解决 一 个 问题 : 如 何 评价 由 这 些 方法 产生 的 分 类 融 ? 


24.1 分 类 器 评价 


如 果 你 读 过 第 18 章 ， 应 该 会 记得 有 一 部 分 内 容 讨论 了 如 何在 线性 回归 中 选择 多 项 式 的 阶 数 。 
选择 阶 数 时 ， 应 该 : (1) 既 能 够 非常 好 地 拟 合 现 有 数据 ; (2) 又 能 够 对 未 知 数据 做 出 好 的 预测 。 使 
用 监督 式 机 融 学 习 方法 训练 分 类 需 时 ， 我 们 也 会 面临 同样 的 问题 。 

开始 时 ,我 们 会 将 数据 分 为 两 个 集合 ,训练 集 和 测试 集 。 使 用 训练 集 学 习 一 个 模型 ， 使 用 测 
试 集 对 这 个 模型 进行 评价 。 对 分 类 器 进行 训练 时 ,我 们 试图 在 满足 一 定 的 约束 条 件 的 情况 下 ,最 
小 化 训练 误差 , 即 对 训练 集中 的 样本 进行 分 类 时 产生 的 误差 。 设 计 约 束 条 件 的 目的 就 是 为 了 提高 
模型 预测 未 知 数据 的 准确 率 。 下 面 就 以 图 形 方式 说 明 这 个 问题 。 

图 24-1 左 图 表 表示 60 位 ( 模拟 的 ) 美国 公民 的 投票 模式 。X 轴 是 投票 人 的 家 庭 与 马萨诸塞 州 
波士顿 市 之 间 的 距离 ，Y 轴 是 投票 人 的 年 龄 。 星 号 表示 投票 人 一 般 会 投 给 民主 党 ， 三 角形 表示 投 
票 人 一 般 会 投 给 共和 党 。 图 24-1 右 图 表 是 一 个 随机 抽样 的 训练 集 ， 其 中 有 30 位 投票 人 。 实 线 和 虚 
线 分 别 表示 两 种 人 群 的 两 种 可 能 的 边界 。 在 实 线 表示 的 模型 中 , 实 线 下 面 的 点 被 分 类 为 民主 党 投 
票 人 ; 在 虚线 表示 的 模型 中 ， 虚 线 左 侧 的 点 被 分 类 为 民主 党 投票 人 。 
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与 波士顿 之 间 的 距离 与 波士顿 之 间 的 距离 
图 24-1 绘制 投票 人 倾向 


没有 一 条 边界 可 以 完美 地 区 分 训练 数据 。 我 们 使 用 图 24-2 中 的 混淆 短 阵 表示 两 种 模型 的 训练 
误差 。 每 个 矩阵 的 左上 和 角 表 示 分 类 为 民主 党 又 确实 为 民主 党 的 样本 数量 ， 即 真 阳 性 数 。 左 下 角 表 
示 分 类 为 民主 党 但 实际 是 共和 党 的 样本 数量 ， 即 假 阳性 数 。 同 理 ,， 右上 角 是 假 明 性 数 ， 右 下 角 是 
真 阴 性 数 。 



































预测 为 民主 党 
阳性 阴性 阳性 阴性 
号 阳性 12 0 阳性 。 11 1 
站 
监 阴性 3 2 阴性 ”8 10 
试 

阳性 /阴性 阳性 /阴性 


图 24-2 ”混淆 矩阵 

每 种 分 类 需 在 训练 数据 上 的 准确 度 可 以 计算 如 下 : 
真 阳 性 + 真 阴性 
真 阳性 + 真 阴 性 + 假 阳 性 + 假 阴 性 

在 本 例 中 ， 每 种 分 类 器 的 准确 度 都 是 0.7。 哪 个 模型 对 训练 数据 的 拟 合 更 好 呢 ? 这 取决 于 我 
们 是 否 更 看 重 将 共和 党 误 分 类 为 民主 党 ， 还 是 反 过 来 。 

如 果 画 出 一 条 更 复杂 的 边界 , 就 可 以 得 到 一 个 新 的 分 类 右 , 它 可 以 将 训练 数据 分 类 得 更 加 准 
确 。 例 如 ， 图 24-3 左 图 所 示 的 分 类 器 对 训练 数据 分 类 的 准确 度 可 以 达到 0.83。 然 而 ， 在 第 18 章 对 
线性 回归 的 讨论 中 我 们 已 经 知道 ， 模 型 越 复 杂 ， 对 训练 数据 过 拟 合 的 概率 就 越 大 。 从 图 24-3 右 
可 以 看 出 ， 如 果 将 这 个 复杂 模型 应 用 到 保留 的 测试 集 数据 上 ， 准 确 度 就 会 降低 到 0.6。 











准确 度 = 
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图 24-3 ”更 复杂 的 模型 


当 两 个 类 的 大 小 差不多 时 ， 用 准确 度 评价 分 类 器 是 非常 合适 的 。 存 在 严重 的 类 别 不 平衡 时 ， 
用 准确 度 评价 分 类 顺 会 得 到 非常 糟糕 的 结果 。 想 像 一 下 ， 如 果 你 负责 评价 这 样 一 种 分 类 顺 , 它 用 
来 预测 菜 个 人 是 否 患 有 某 种 潜在 的 致命 疾病 , 这 种 疾病 的 发 病 率 大 约 是 0.1%。 这 时 ， 准 确 度 就 不 
是 一 个 合适 的 统计 量 ， 因 为 只 要 简单 地 宣布 所 有 患者 都 没有 病 ， 就 可 以 得 到 99.9% 的 准确 度 。 这 
种 分 类 器 对 于 那些 要 为 治疗 付 钱 的 人 来 说 真是 太 好 了 ( 因为 没有 人 需要 治疗 ! ), 但 对 于 那些 对 自 
己 可 能 患 病 忧心 促 刷 的 人 来 说 ， 就 太 不 公平 了 。 

幸运 的 是 ， 类 别 不 平衡 时 ， 仍 然 有 一 些 统计 量 可 以 用 来 评价 分 类 器 : 



































































































































灵敏 度 = 同人 + 和 性 
蜡 度 一下 丽 作 让 押 
阳性 预测 值 = 
阴性 预测 值 = 二 下 























灵敏 度 ( 某 些 领域 称 为 召回 率 ) 即 真 阳性 率 ， 也 就 是 正确 识别 的 阳性 数量 与 实际 阳性 数量 的 
比例 。 特 异 度 〈 某 些 领域 称 为 精确 度 ) 即 真 阴性 率 ,也 就 是 正确 识别 的 阴性 数量 与 实际 阴性 数量 
的 比例 。 阳 性 预测 值 是 一 个 被 分 类 为 阳性 的 样本 确实 是 阳性 的 概率 。 阴 性 预测 值 是 一 个 被 分 类 为 
阴性 的 样本 确实 是 阴性 的 概率 。 

图 24-4 给 出 了 这 些 统计 指标 的 实现 ， 并 通过 一 个 函数 使 用 它们 生成 了 一 些 统计 量 。 本 章 后 面 
的 内 容 会 使 用 这 些 函 数 。 
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def accuracy(truepos, falsePos, trueNeg, falseNeg): 
numerator = truePos + trueNeg 
denominator = truePos + trueNeg + falsePos + falseNeg 
return numerator/denominator 


def sensitivity(truePos，falseNeg) : 
try: 
return truePos/(truePos + falseNeg) 
except ZeroDivisionError: 
return float('nan') 


def specificity(trueNeg，falsePos ) : 
try: 
return trueNeg/(trueNeg + falsePos) 
except ZeroDivisionError: 
return float('nan') 


def posPredVal(truepos, falsePos): 
try: 
return truePos/(truePos + falsePos) 
except ZeroDivisionError: 
return float('nan') 


def negPredVal(trueNeg, falseNeg): 
try: 
return trueNeg/(trueNeg + falseNeg) 
except ZeroDivisionError: 
return float('nan') 


def getStats(truepos, falsepPos, trueNeg, falseNeg, toPrint = True): 
accur = accuracy(truePpos, falsePos, trueNeg, falseNeg) 
sens = sensitivity(truepos, falseNeg) 
spec = Specificity(trueNeg，falsePos) 
ppv = posPredVal(truePos，falsePos) 
if toPrint : 
print(” Accuracy =', round(accur, 3)) 
print(' Sensitivity =', round(sens, 3)) 
print(' Specificity =', round(spec, 3)) 
print(' Pos. Pred. Val. =", round(ppv, 3)) 
return (accur, sens, spec, ppv) 











图 24-4 ”评价 分 类 器 的 函数 


24.2 ”预测 跑步 者 的 性 别 


在 本 书 前 面 的 内 容 中 , 我 们 曾经 使 用 波士顿 马拉松 比赛 的 数据 来 说 明 一 些 统计 概念 , 下面 使 
用 同样 的 数据 来 说 明 各 种 分 类 方法 的 应 用 。 我 们 的 任务 是 通过 跑步 者 的 年 龄 和 完成 时 间 来 预测 跑 
步 者 的 性 别 。 

图 24-5 的 代码 调用 图 17-2 定 义 的 函数 getBMData, 从 一 个 文件 读 出 数据 并 建立 一 个 样本 集合 。 
每 个 样本 都 是 Runner 类 的 一 个 实例 (instance )。 每 名 跑步 者 都 有 一 个 标签 (性别 ) 和 一 个 特征 后 
量 (年 龄 和 完成 时 间 )。Runner 类 中 唯一 需要 解释 的 方法 是 featureDist， 它 可 以 返回 两 名 跑步 
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者 特征 向 量 之 间 的 欧 氏 距离 。 

下 一 步 就 是 , 将 样本 划分 为 一 个 训练 集 和 一 个 先 保留 不 用 的 测试 集 。 最 常用 的 做 法 是 ,使 用 
80% 的 数据 训练 模型 ， 使 用 剩余 的 20% 数 据 对 模型 进行 测试 。 图 24-5 底 部 的 函数 divide86_26 可 
以 完成 这 一 任务 。 请 注意 ,训练 数据 是 随机 选取 的 。 如 果 只 是 简单 地 选取 前 80% 的 数据 ,那么 虽 
然 可 以 简化 代码 , 但 是 这 样 得 到 的 训练 集 数据 却 有 可 能 不 能 代表 整个 数据 集合 。 举 例 来 说 ,如 果 
文件 中 的 数据 是 按照 完成 时 间 排 序 的 , 那么 训练 集 就 会 发 生 偏离 , 因为 其 中 都 是 成 绩 比较 好 的 选 
手 的 数据 。 



























































class Runner(object): 
def _ init (self, gender, age, time): 
self.featureVec = (age, time) 
self.label = gender 


def featureDist(self, other): 
dist = 6.6 
for i in range(len(self.featureVec)): 
dist += abs(self.featureVec[i] - other.featureVec[i])**2 
return dist**@.5 


def getTime(self) : 

return self.featureVec[1] 
def getAge(lself): 

return self.featurevec[6] 
def getLabel(self): 

return self.label 
def getFeatures(self) : 

return self.featureVec 


def _str_ (self) : 
return str(self.getAge()) + ', ' + str(self.getTime())\ 
+ '",， "+ self.label 


def buildMarathonExamples(fileName): 
data = getBMData(fileName) 
examples = [] 
for i in range(len(data['age' ])): 
a = Runner(data['gender'][i], data['age'][i], 
data[ 'time' ][i]) 
examples .append(a) 
return examples 


def divide86_26(examples) : 
sampleIndices = random.sample(range(len(examples)), 
len(examples)//5) 
trainingSet, testSet = [], [] 
for i in range(len(examples)): 
if i in sampleIndices: 
testSet.append(examples[i]) 
else: 
trainingSet.append(examples[i]) 
return trainingSet, testSet 


























图 24-5 ”建立 样本 并 将 数据 划分 为 训练 集 和 测试 集 
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现在 我 们 已 经 做 好 了 准备 , 可 以 通过 各 种 不 同 的 方法 使 用 训练 集 来 建立 分 类 器， 以 预测 跑步 
者 的 性 别 。 通 过 对 数据 的 检查 ， 我 们 知道 训练 集中 有 58% 的 跑步 者 是 男性 。 所 以 ， 如 果 我 们 总 是 
猜测 跑步 者 是 男性 ， 将 会 得 到 58% 的 准确 度 。 请 记 住 这 个 基准 ， 当 我 们 检查 各 种 复杂 分 类 算法 的 
性 能 时 ， 都 要 和 这 个 基准 进行 比 对 。 


24.3 KK 最 近邻 方法 


KK 最 近邻 方法 可 能 是 最 简单 的 分 类 算法 。 通 过 这 种 方法 “学 习 ” 的 模型 就 是 训练 集 本 身 。 对 
新 样本 进行 标注 时 ， 就 是 根据 它们 与 训练 集 样本 的 相似 度 而 进行 的 。 

想象 一 下 ， 你 和 一 个 朋友 正在 公园 里 漫步 ， 罕 然 发 现 一 只 马 。 你 认为 这 是 一 只 黄 喉 吸 木 乌 ， 
但 你 的 朋友 却 灾 有 把 握 地 说 这 是 一 只 金 绿 吸 木 鸟 。 你 跑 回 家 ， 翻 出 收藏 的 鸟 类 书籍 ( 或 者 ， 如 果 
你 不 到 35 岁 ， 那 么 就 会 打开 最 喜欢 的 搜索 引擎 )， 开 始 查 看 带 有 标注 的 鸟 类 图 片 。 你 可 以 将 这 些 
有 标注 的 图 片 当 作 训练 集 。 没 有 一 张 图 片 和 你 看 到 的 鸟 完 全 一 样 ， 所 以 你 选择 5 张 和 你 看 到 的 鸟 
最 相似 的 图 片 ( 这 就 是 5 个 “最 近邻 ”)。5 张 图 片 中 多 数 是 黄 喉 叹 木 岛 的 图 片 ， 所 以 你 访 了 。 

KNN 分 类 器 的 缺点 是 ,， 当 存在 严重 的 分 类 不 平衡 时 , 它 经 常会 给 出 非常 糟糕 的 结果 。 如 果 你 
的 书 中 鸟 类 种 类 的 分 布 和 你 的 朋友 的 书 是 一 样 的 , 那么 KNN 会 工作 得 很 好 。 但 是 , 假设 这 样 一 种 
情况 : 尽管 这 两 种 鸟 类 都 同样 常见 ， 但 你 的 书 中 有 30 张 黄 喉 吸 木 鸟 的 图 片 ， 而 金 绿 吸 木 鸟 的 图 片 
只 有 1 张 。 那 么 ， 如 果 在 确定 分 类 时 使 用 多 数 票 胜出 的 原则 ， 即 使 这 些 图 片 与 你 看 到 的 鸟 并 不 太 
相似 ， 也 会 将 这 种 乌 判 定 为 黄 喉 吸 木 鸟 。 要 解决 这 个 问题 ， 可 以 使 用 更 复杂 的 投票 机 制 ， 比 如 可 
以 基于 与 待 分 类 样本 的 相似 程度 ， 对 K 最 近邻 进行 加 权 。 
图 24-6 中 的 函数 实现 了 一 个 K 最 近邻 分 类 器 ， 可 以 基于 跑步 者 的 年 龄 和 完成 时 间 对 其 性 别 进 
行 预测 。 这 个 实现 其 实 是 一 种 暴力 算法 。 函 数 findKNearest 的 复杂 度 与 exampleset 中 的 样本 数 
量 成 线性 关系 ， 因 为 它 要 计算 example 与 exampleset 中 每 个 元 素 之 间 的 特征 距离 。 函 数 
KNearestclassify 使 用 简单 的 多 数 票 胜出 原则 来 进行 分 类 ， 它 的 复杂 度 是 O(len(training)* 
len(testSet))， 因 为 它 要 对 函数 findNearest 进 行 总 共 len(testset) 次 调用 。 
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def findKNearest(example, exampleSet, k): 
kNearest, distances = [], [] 
# 建 立 一 个 列表 ， 包 含 最 初 7 个 样本 和 它们 的 距离 
for i in range(k): 
kNearest.append(exampleSet[i]) 
distances.append(example.featureDist(exampleSet[i])) 
maxDist = max(distances) # 找 出 最 大 距离 
# 检 查 其 余 样 本 
for e in exampleSet[k:]: 
dist = example.featureDist(e) 
if dist < maxDist: 
# 替 换 距 离 更 远 的 邻居 
maxIndex = distances.index(maxDist) 
kNearest[maxIndex] = e 
distances[maxIndex] = dist 
maxDist = max(distances) 
return kNearest, distances 


def KNearestClassify(training, testSet, label, kK): 
""" 假 设 training 和 testSet 是 两 个 样本 列表 ,Kk 是 整数 
使 用 K 最 近邻 分 类 器 预测 testSet 中 的 每 个 样本 是 否 具有 给 定 的 标签 
whether each example in testSet has the given label 
返回 真 阳性 、 假 阳性 、 真 阴性 和 假 阴 性 的 数量 """ 
truePos, falsePos, trueNeg, falseNeg = 06, 606, 0, 0 
for e in testSet: 
nearest, distances = findKNearest(e, training, k) 
# 进 行 投票 
numMatch = 6 
for i in range(len(nearest)): 
if nearest[i].getLabel() == label: 
numMatch += 1 
if numMatch > k//2: # 具 有 标签 
if e.getLabel() == label: 
truePos += 1 
else: 
falsePos += 1 
else: # 不 具有 标签 
if e.getLabel() != label: 
trueNeg += 1 
else: 
falseNeg += 1 
return truePos, falsePpos, trueNeg, falseNeg 











图 24-6” 找 出 K 最 近邻 
运行 以 下 代码 : 
examples = buildMarathonExamples('bm_results20812.txt') 
training, testSet = divide86 26(examples) 
truePos, falsepos, trueNeg, falseNeg =\ 


KNearestClassify(training, testSet, 'M', 9) 
getSstats(truePos, falsePos, trueNeg, falseNeg) 
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会 输出 : 


Accuracy = 8.65 
Sensitivity = 8.715 
Specificity = 8.563 
Pos. Pred. Val. = 6.684 


根据 年 龄 和 完成 时 间 ， 对 性 别 的 预测 准确 度 可 以 达到 65%，, 我 们 是 否 应 该 感到 满意 ”评价 分 
类 器 的 一 种 方法 是 ,将 它 和 不 考虑 年 龄 及 完成 时 间 的 另 一 个 分 类 需 进 行 比较 。 图 24-7 中 的 分 类 器 
先 使 用 training 中 的 样本 ， 估 计 出 一 个 从 testSset 随 机 选取 的 样本 属于 labe1 类 的 概率 ， 然 后 使 
用 这 个 先 验 概率 为 testset 中 的 每 个 样本 随机 分 配 一 个 标签 。 

















加 











def prevalenceClassify(training, testSet, label): 
""" 假 设 training 和 testSet 是 两 个 样本 列表 ， 
使 用 基于 流行 度 的 分 类 器 预测 testSet 中 的 每 个 样本 是 否 具 有 类 标签 
返回 真 阳性 、 假 阳性 、 真 阴性 和 假 阴 性 的 数量 """ 
numWithLabel = 6 
for e in training: 
if e.getLabel()== label: 
numWithLabel += 1 
probLabel = numWithLabel/len(training) 
truePos, falsePpos, trueNeg, falseNeg = 6, 60, 60, 0 
for e in testSet: 
if random.random() < probLabel: # 具 有 标签 
if e.getLabel() == label: 
truePos += 1 
else: 
falsePos += 1 
else: # 不 具有 标签 
if e.getLabel() != label: 
trueNeg += 1 
else: 
falseNeg += 1 
return truePpos, falsePpos, trueNeg, falseNeg 











图 24-7 ”基于 流行 度 的 分 类 器 








我 们 使 用 波士顿 马拉松 数据 测试 prevalenceClassify， 测试 KNN 时 ,使 用 的 也 是 同样 的 数 
据 。 测 试 结果 为 : 

准确 度 =8.514 

灵敏 度 =9.593 


特异 度 =8.41 
阳性 预测 值 =9.57 


这 说 明 ， 如 果 考 虑 年 龄 和 完成 时 间 ， 预 测 结果 将 有 显著 进步。 
然而 ， 进 步 是 有 代价 的 。 运 行 图 24-6 中 的 代码 就 会 发 现 ， 它 需要 相当 长 的 时 间 才 能 结束 。 训 
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练 集中 有 17 233 个 样本 ,测试 集中 有 4308 个 样本 ， 所 以 差不多 要 计算 7500 万 个 距离 。 这 就 提出 了 
一 个 问题 : 我 们 是 否 真 的 需要 使 用 所 有 训练 集 样本 ? 下 面 看 看 如 果 通 过 下 采样 将 训练 集 数据 减少 
到 原来 的 /10， 会 发 生 什 么 。 

运行 以 下 代码 : 

reducedTraining = random.sample(training, len(training)//108) 

truePos, falsePpos, trueNeg, falseNeg =\ 


KNearestClassify(reducedTraining, testSet, 'M', 9) 
getSstats(truePos, falsePos, trueNeg, falseNeg) 


它 所 需 时 间 只 是 原来 的 110， 但 分 类 效果 几乎 没有 变化 : 


准确 度 =8.643 
灵敏 度 =8.726 
特异 度 =9.534 
阳性 预测 值 =8.673 


实际 工作 中 ， 当 人 们 在 大 数据 集 上 应 用 KNN 方 法 时 ， 确 实 要 对 训练 数据 进行 下 采样 。” 

在 上 面 的 实验 中 , 我 们 将 k 设 成 了 9。 选 择 这 个 数字 不 是 因为 它 在 科学 中 的 地 位 (太阳系 中 行 
星 的 数量 )”， 也 不 是 因为 它 的 宗教 意义 ( 印度 教 女神 杜 尔 迦 的 形态 数量 )， 也 不 是 因为 它 的 社会 
学 重要 性 (一 个 棒球 队 完 整 阵 容 中 击 球 手 的 数量 )。 相反， 这 个 k 值 是 通过 对 训练 数据 的 学 习 而 得 
出 的 ， 我们 可 以 使 用 图 24-8 中 的 代码 找到 一 个 合适 的 # 值 。 




































































def findK(training, minKk, maxKk, numFolds, label): 
# 在 K 的 奇数 取 值 范围 内 找 出 平均 准确 度 
accuracies = [] 
for k in range(minKk, maxk + 1, 2): 
score = 0.6 
for i in range(numFolds): 
# 通 过 下 采样 减少 计算 时 间 
fold = random.sample(training, min(56606, len(training))) 
examples, testSet = divide86_26(fold) 
truePos, falsePpos, trueNeg, falseNeg =\ 
KNearestClassify(examples, testSet, label, k) 
score += accuracy(truePos, falsePos, trueNeg, falseNeg) 
accuracies.append(score/numFolds) 
pylab.plot(range(minKk, maxK + 1, 2), accuracies) 
pylab.title('Average Accuracy vs k (' + str(numFolds)\ 
+ ' folds)') 
pylab.xlabel('k') 
pylab.ylabel('Accuracy') 


findK(training, 1, 21, 1, 'M') 











图 24-8 ”找到 合适 的 

















Qa 构建 样本 时 ， 经 常 要 使 用 一 些 更 高 级 的 方法 ， 而 不 是 简单 的 随机 抽样 。 
@ 有 些 人 仍然 认为 冥王 星 是 行星 。 
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代码 的 外 层 循环 测试 一 系列 k 值 。 我 们 只 测试 奇数 值 ， 这 样 在 kNearestClassify 函 数 中 进行 
投票 时 ， 可 以 确保 一 种 性 别 能 够 得 到 多 数 票 。 

内 层 循环 使 用 n 折 交 又 验证 测试 每 个 £ 值 。 循 环 要 进行 humFolds 次 迭代 ， 每 次 迭代 都 要 将 初 
始 的 训练 集 划分 为 一 对 新 的 训练 集 和 测试 集 ， 然 后 使 用 K 最 近邻 方法 和 新 训练 集 对 新 测试 集 进 行 
分 类 ， 并 计算 准确 度 。 结 束 内 层 循环 时 ， 计 算 numFolds 折 的 平均 准确 度 。 

运行 这 段 代 码 ， 生 成 图 24-9。 从 图 中 可 以 看 出 ， 对 于 5 折 交 叉 验 证 ， 获 得 最 高 准确 度 的 K 值 是 
17。 当 然 , 上 > 21 时 ， 完 全 有 可 能 得 到 更 高 的 准确 度 。 但 k 达 到 9 时 ， 准 确 度 就 在 一 个 相当 狭窄 的 
区 间 内 波动 ， 所 以 我 们 选择 9 作为 £ 的 值 。 
























































准确 度 与 i 值 〈5 折 ) 


























图 24-9 ”选择 k 值 


24.4 ”基于 回归 的 分 类 器 


我 们 在 第 18 章 使 用 线性 回归 建立 数据 模型 , 下 面 同样 使 用 线性 回归 , 根据 训练 集 数 据 为 男性 
和 女性 分 别 建 模 。 图 24-10 中 的 代码 可 以 生成 图 24-11。 
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# 建 立 男 性 和 女性 的 训练 集 
ageM, ageW, timeM, timeW = [], [], [], [] 
for e in training: 
if e.getLabel() == 'M': 
ageM.append(e.getAge()) 
timeM.append(e.getTime()) 
else: 
ageW.append(e.getAge()) 
timeW.append(e.getTime()) 
# 通 过 下 采样 使 图 形 更 加 美观 易 读 
ages, times = [], [] 
for i in random.sample(range(len(ageM)), 3060): 
ages.append(ageM[i]) 
times.append(timeM[i]) 
# 生 成 样本 的 散 点 图 
pylab.plot(ages, times, 'yo', markersize = 6, label = 'Men') 
ages, times = [], [] 
for i in random.sample(range(len(ageW)), 3060): 
ages.append(ageW[i]) 
times.append(timeW[i]) 
pylab.plot(ages, times, 'k^', markersize = 6, label = 'Women') 
# 学 习 两 个 一 阶 线性 回归 模型 
mModel = pylab.polyfit(ageM, timeM, 1) 
fModel = pylab.polyfit(ageW, timeW, 1) 
# 绘 制 出 对 应 于 模型 的 直线 
xmin, xmax = 15, 85 
pylab.plot((xmin, xmax), (pylab.polyval(mModel, (xmin, xmax))), 
'k', label = 'Men') 
pylab.plot((xmin, xmax), (pylab.polyval(fModel, (xmin, xmax))), 
'k--', label = 'Women') 
pylab.title('Linear Regression Models') 
pylab.xlabel('Age') 
pylab.ylabel('Finishing time (minutes)') 
pylab.legend() 

















图 24-10 “生成 并 绘制 线性 回归 模型 
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图 24-11 男性 和 女性 的 线性 回归 模型 
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此 ,还 是 可 以 使 用 这 





从 图 24-11 中 一 眼 就 可 以 看 出 ,线性 回归 模型 仅仅 解释 了 数据 中 的 很 小 一 部 分 方差 。 尽管 如 





目 这 两 个 模型 建立 分 类 器 。 两 个 模 








种 关系 对 于 男性 和 女性 是 不 一 样 的 ,我 们 可 以 利用 这 个 事实 建立 分 类 器 。 
们 可 以 看 看 在 这 个 样本 中 ， 民生 民 村 间作 加 鸭 关 夭 证 全 全 性 跑步 者 模型 ( 实 线 )， 还 是 更 


接近 女生 


间 





运行 这 上段 代码 ， 
准确 度 =8.616 
灵敏 度 =9.682 
特异 度 =9.529 
阳性 预测 值 =8.657 





FE 跑步 者 模型 ( 虚线 )。 这 个 想法 可 以 由 图 24-12 中 的 代码 实现 。 


型 都 试图 捕获 年 龄 和 完成 时 间 之 间 的 关系 ， 这 


如 果 给 定 一 个 样本 , 我 








truePos，falsePos，trueNeg，falseNeg = 6, 686, 0, 0 
for e in testSet: 
age = e.getAge() 
time = e.getTime() 
if abs(time - pylab.polyval(mModel,age)) <\ 
abs(time - pylab.polyval(fModel, age)): 
if e.getLabel() == 'M': 
truePos += 1 
else: 
falsePos += 1 
else: 
if e.getLabel() == 
trueNeg += 1 
else: 
falseNeg += 1 
getStats(truePpos, falsePos, trueNeg, falseNeg) 














图 24-12 ”使 用 线性 回归 建立 分 类 器 





会 输出 : 


这 个 结果 比 随机 选择 要 好 ,但 比 KNN 稍 差 一 些 。 

你 可 能 会 觉得 奇怪 , 为 什么 我 们 要 用 这 样 的 间接 方法 来 使 用 线性 回归 ， 而 不 用 年 龄 和 完成 时 
作为 自 变量 ， 茶 个 实数 作为 因 变量 〈 比如 0 为 女性 ，1 为 男性 ) 来 构造 某 
个 模型 呢 ? 
要 建立 这 样 的 模型 非常 容易 ， 我 们 完全 可 以 使 用 polyfit 将 一 个 年 龄 


























个 函数 从 而 直接 建立 一 


和 完成 时 间 的 函数 映射 








成 一 个 实数 。 但是， 如 果 预 测 出 某 个 跑步 者 在 男性 和 女性 之 间 , 我 们 应 该 


中 会 
型 应 用 polyval 函数 时 ， 甚 至 不 能 保证 返回 值 肯定 在 0( 和 1 之 间 。 
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出 现 双 性 人 吗 ? 


























或 许 我 们 可 以 将 Y 轴 解释 为 跑步 者 是 男性 的 概率 。 这 





幸运 的 是 ， 还 有 另 一 种 形式 的 回归 可 以 直接 预测 一 个 事件 的 概率 ， 


























Q@ 尽管 我 们 使 用 全 部 训练 集 数据 来 拟 合 模型 ， 但 在 绘图 时 ， 我 们 还 是 只 绘制 了 训练 集 

















如 何 解 释 呢 ? 难道 比赛 
样 也 不 是 很 好 ， 因 为 对 

















这 就 是 logistic 回 归 ?。 














制 所 有 点 ， 那么 这 些 点 就 会 重合 成 一 大 块 ， 根 本 看 不 出 任何 有 用 的 细节 。 





@) 之 所 以 称 作 logistic 
数 称 为 logit 函 数 ， 























可 归 是 因为 ,解决 这 种 最 优化 问题 时 ， 目 标 函数 是 基于 比值 比 (o 























它 的 反 函 数 称 为 logistic 函 数 。 





P 的 一 小 部 分 数据 点 。 如 果 绘 


dds ratio ) 的 对 数 的 。 这 种 函 
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Python 库 sklearn 对 logistic 回 归 进 行 了 非常 好 的 实现 , 并 提供 了 很 多 与 机 器 学 习 相关 的 实用 函数 
和 类 。 

LogisticRegression 类 包含 在 模块 sklearn.1linear_model 中 , 这 个 类 的 ”init 方法 有 很 
多 参数 可 以 进行 设置 ， 比 如 用 来 求解 回归 方程 的 最 优化 算法 。 这 些 参 数 都 有 默认 值 ， 在 多 数 情况 
下 ， 使 用 默认 值 即 可 。 

LogisticRegression 类 的 核心 方法 是 fit。 这 个 方法 使 用 两 个 同样 长 度 的 序列 (元 组 、 列 表 
或 数组 ) 作为 参数 。 第 一 个 参数 是 特征 向 量 序列 ， 第 二 个 参数 是 与 特征 向 量 对 应 的 标签 序列 。 在 
文献 中 ， 这 些 标签 通常 被 称 为 结果 。 

fit 方 法 返回 一 个 LogisticRegression 类 型 的 对 象 , 对 于 其 中 特征 向 量 的 每 个 特征 , 已 经 通 
过 学 习 得 到 了 相应 的 系数 。 这 些 系数 通常 称 为 特征 权重 , 反映 了 特征 与 结果 之 间 的 关系 。 特征 权 
重 为 正 ， 表示 这 个 特征 与 结果 正 相 关 ; 特征 权重 为 负 ， 表示 这 个 特征 与 结果 负 相 关 。 权 重 的 绝对 
值 则 会 影响 相关 性 的 强度 。 ”这些 权重 的 值 可 以 通过 LogisticRegression 的 属性 coef_ 进 行 访问 。 
因为 可 以 训练 出 具有 多 个 结果 ( 在 这 个 包 的 文档 中 称 为 类 别 ) 的 LogisticRegression 对 象 ， 所 
以 coef 的 值 是 一 个 序列 ， 序 列 中 的 每 个 元 素 都 是 对 应 于 某 个 结果 的 权重 序列 。 举 例 来 说 ， 表 达 
式 model.coef[1][8] 表 示 第 二 个 结果 的 第 一 个 特征 的 系数 的 值 。 

一 旦 学 习 了 这 些 系数 ， 就 可 以 使 用 LogisticRegression 类 的 predict_proba 方 法 预测 与 
某 个 特征 向 量 对 应 的 结果 。predict_proba 方 法 只 需要 1 个 参数 (self 除外 )， 即 特征 向 量 的 序 
列 。 它 返回 一 个 数组 的 数组 ， 每 个 数组 表示 一 个 特征 向 量 。 在 返回 的 数组 中 ， 每 个 元 素 都 包含 
一 个 对 相应 特征 向 量 的 预测 值 。 预 测 值 也 是 一 个 数组 ， 因 为 它 包 含 了 建立 nodel 时 所 用 的 每 个 
标签 的 概率 。 

图 24-13 中 的 代码 简单 地 演示 了 如 何 使 用 这 些 功 能 。 首 先 ， 代 码 创建 了 一 个 包含 100 000 
个 样本 的 列表 ， 每 个 样本 都 有 一 个 长 度 为 2 的 特征 向 量 ， 而 且 被 标注 为 'A'、'B' 、'C 或 'D' 
四 种 标签 之 一 。 每 个 样本 的 前 两 个 特征 值 都 来 自 高 斯 分 布 ， 高 斯 分 布 的 标准 差 都 是 0.5， 对 于 
不 同 的 标签 ， 高 斯 分 布 的 均值 也 有 所 不 同 。 第 三 个 特征 的 值 是 随机 选取 的 ， 因 此 在 预测 标签 
时 不 起 作用 。 建 立 完 样 本 之 后 ， 代 码 会 生成 一 个 logistic 回 归 模 型 ， 输 出 特征 权重 ， 最 后 输出 
对 应 于 4 个 样本 的 概率 。 






































































































































































































































加 这 个 工具 箱 在 很 多 PythonIDE 中 是 预先 安装 好 的 ， 比 如 Anaconda。 如 果 想 了 解 这 个 库 的 更 多 信息 并 学 会 如 何 安装 ， 
可 参见 http://scikit-learn.org。 

@ 这 种 相关 性 比较 复杂 ， 因 为 特征 彼此 之 间 经 常 也 是 相关 的 。 例 如 ， 年 龄 和 完成 时 间 是 正 相关 的 。 当 特征 之 间 相关 24 
时 ， 权 重 的 大 小 也 不 是 独立 的 。 
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import sklearn.linear model 


featureVecs, labels = [], [] 
featureVecs.append( [random. 
random. 
labels.append('A') 
featureVecs.append( [random. 
random. 
labels.append('B') 
featureVecs.append( [random. 
random. 
labels.append('C') 
featureVecs.append( [random. 
random. 
labels.append('D') 





print('model.classes_ =" 
for i in range(len(model.coef ) 


"feature weights = 
print('[68, 6] probs =" 


print('[2, 2] probs =" 





for i in range(25666) : # 每 次 迭代 创建 4 个 样本 


gauss(96，6.5)， 
random()]) 


gauss(96，6.5)， 
random()]) 


gauss(2，6.5)， 
random()]) 


gauss(2，6.5)， 
random()]) 


，model.classes_) 


)e 


print('For label', model.classes_[i], 

， model.coef_[i]) 
， Model.predict proba([[®©, 
print('[8, 2] probs ="', model.predict_ proba([[®, 
print('[2, 6] probs ="', model.predict_ proba([[2, 
，model.predict_proba([[2， 


random.gauss(6，6.5)， 


random.gauss(2，6.)， 
random.gauss(6， 


6.5)， 


random.gauss(2，6.5)， 


model = sklearn.linear model.LogisticRegression().fit(featureVecs, 


labels) 


0, 1]])[e]) 
2，2]])[9]) 
6，3]])[8]) 
2，4]])[9]) 











图 24-13 


运行 图 24-13 中 的 代码 ， 会 输出 : 


model.classes_ = ['A' 'B' 'C" 

For label A feature weights = [ 
For label B feature weights = [ 
For label C feature weights = [ 
For label D feature weights = [ 
[86，6] probs = [ 9.96619674e-61 
2.96294956e-67] 
[86，2] probs = 
1.28627186e-62] 
[2，6] probs = 
1.55665885e-63] 
[2，2] probs = 
9.96627921e-61] 


[ 8.72562747e-63 9. 
[ 5.22466887e-63 1 


[ 7.88542473e-67 1. 





我 们 先 看 一 下 特征 权重 。 第 一 行 结果 告诉 我 们 ， 前 两 个 特征 








使 用 sklearn 进 行 多 分 类 logistic 回 归 

















4.65726783 -4.38351299 -8.66722845] 
5.17636683 5.82391837 8.64766168 ] 
3.95946539 -3.97854738 -8.64486266] 
4.37529465 5.46639969 -6.69434664] 
4.66294343e-64 9.51434182e-63 


78468475e-61 3.18666166e-66 
.69995686e-68 9.93218655e-61 


97661741e-63 7.99527347e-63 














F 具 有 的 权重 差不多 ,并 且 都 与 检 


I 





本 具有 标签 'A' 的 概率 负 相 关 。 也 就 是 说 ,前 两 个 特征 的 值 越 大 , 样本 是 'A' 类 型 的 概率 就 越 小 。 








GD 因为 样本 量 是 有 限 的 ， 所 以 这 两 个 权重 在 绝对 值 上 会 有 微小 的 差别 。 
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至 于 第 三 个 特征 , 我 们 预料 的 是 它 在 预测 标签 方面 没有 多 大 价值 ,实际 上 , 它 的 权重 与 前 两 个 特 
征 权 重 相 比 确实 太 小 了 ， 这 说 明 它 根 本 不 重要 。 第 二 行 结果 告诉 我 们 ,样本 具有 标签 'B' 的 概率 
与 第 一 个 特征 负 相 关 ， 但 与 第 二 个 特征 正 相 关 。 同 样 ， 第 三 个 特征 的 权重 非常 小 。 第 3 行 结果 
第 4 行 结果 的 意义 与 前 面 两 行 类 似 ， 我 们 就 不 具体 分 析 了 。 

下 面 看 看 每 种 结果 对 应 于 4 个 样本 的 概率 。 概 率 的 顺序 与 属性 model.classes_ 中 结果 的 顺序 
是 一 致 的 。 正 如 我 们 所 希望 的 ， 预 测 与 特征 向 量 [6，8] 对 应 的 标签 时 ， 标 签 'A' 的 概率 非常 大 ， 
'D ' 的 概率 则 非常 小 。 同 样 ， 特 征 向 量 [2，2] 对 应 于 'D' 的 概率 非常 大 ， 对 应 于 'A' 的 概率 则 非常 
小 。 与 中 间 两 个 样本 所 对 应 的 概率 也 与 我 们 的 预料 相符 合 。 

图 24-14 中 的 示例 与 图 24-13 中 的 非常 相似 ， 区 别 在 于 我 们 只 创建 了 两 种 类 型 的 样本 : 'A' 和 
'D' ， 而 且 没 有 包含 无 关 的 第 三 个 特征 。 






























































featureVecs, labels = [], [] 
for i in range(268060): 
featureVecs.append([random.gauss(0, 08.5), random.gauss(60, 0.5)]) 
labels.append('A') 
featureVecs.append([random.gauss(2, 08.5), random.gauss(2, 60.5)]) 
labels.append('D') 
model = sklearn.linear model.LogisticRegression().fit(featureVecs, 
labels) 
print('model.coef =" 
print('[8, 68] probs 
print('[8, 2] probs 
print('[2, 8] probs 
print('[2, 2] probs 


model.coef_) 

， model.predict proba([[8, 8]])[e]) 
， model.predict proba([[8, 2]])[e8]) 
， model.predict proba([[2, 868]])[e8]) 
， model.predict proba([[2, 2]])[e8]) 


Il IN IINs 














图 24-14 ”二 分 类 logistic 回 归 样 本 
运行 图 24-14 中 的 代码 ， 会 输出 : 


model.coef = [[ 5.79284554 5.68893473]] 
[6，6] probs [ 9.99988836e-61 1.11643397e-85] 
[86，2] probs = [ 6.56622598 6.49377462] 
[2，6] probs = [ 6.45439797 86.54566263] 
[2，2] probs [ 9.53257749e-66 ”9.99996467e-61] 


请 注意 ， 这 时 coef_ 中 只 有 一 组 权重 。 使 用 fit 建 立 一 个 二 元 分 类 器 模型 时 ， 它 只 生成 一 个 标签 
的 权重 。 这 就 够 了 ， 因 为 只 要 proba 计 算出 一 个 样本 属于 某 个 类 别 的 概率 ， 那 么 这 个 样本 属于 男 
外 一 个 类 别 的 概率 也 已 经 确定 , 因为 这 两 个 概率 的 和 肯定 是 1。 那么 coef_ 中 的 权重 对 应 的 是 两 种 
标签 中 的 哪 一 种 呢 ? 因为 权重 是 正 的 ， 所 以 它 肯 定 对 应 于 'D' 。 我 们 知道 ， 特 征 向 量 的 值 越 大 ， 
样本 属于 'D' 类 的 可 能 性 就 越 大 。 传 统 上 ， 二 元 分 类 使 用 和 1 作为 标签 ， 分 类 器 的 权重 对 应 于 1。 
在 本 例 中 ，coef_ 中 的 权重 对 应 于 最 大 的 标签 ， 与 在 str 类 型 中 由 操作 符 > 定 义 的 一 样 。 

我 们 回 到 波士顿 马拉松 比赛 的 例子 。 图 24-15 中 的 代码 使 用 LogisticRegression 类 为 波士顿 
马拉松 数据 建立 了 一 个 模型 ， 并 进行 了 测试 。 函 数 applyMode1 需 要 以 下 4 个 参数 。 
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口 model: 一 个 已 经 构建 拟 合 模型 的 LogisticRegression 类 型 的 对 象 。 
口 testSet: 一 个 样本 序列 ， 为 model 构 建 拟 合 模型 时 ， 我 们 也 用 到 了 一 些 相 


FI 





本 具有 同样 类 型 的 特征 和 标签 。 















































5 





折 中 。 











口 label: 阳性 类 别 的 标签 ，applyModel 返 回 的 混淆 矩阵 中 的 信息 会 参考 这 个 标签 。 
口 prob: 概率 阔 值 ， 用 来 确定 为 testSset 中 的 样本 分 配 哪 个 标签 ， 默 认 值 为 0.5。 因 为 它 不 
是 一 个 常数 ， 所 以 applyModel 函 数 可 以 通过 改变 它 的 值 ， 在 假 阳 性 和 假 阴 性 之 间 做 一 些 





这 两 种 样 


实现 applyModel 时 ,代码 首先 使 用 列表 推导 式 ( 参见 5.3.2 节 ) 建立 一 个 列表 ， 列 表 中 的 元 


素 是 testset 中 样本 的 特征 向 量 。 然 后 ， 代 码 调用 model.predict_proba 方 法 得 到 一 个 数组 ， 数 














本 的 标签 进行 比较 ， 记 录 并 返回 真 阳性 、 假 阳性 、 真 阴性 和 假 阴性 结果 的 数量 。 























组 的 元 素 是 一 个 值 对 ,对 应 每 个 特征 变量 的 预测 值 。 最 后 ,代码 将 预测 值 与 具有 该 特征 向 量 的 样 





def applyModel(model, testSet, label, prob = 6.5): 
# 为 所 有 测试 样本 创建 一 个 包含 特征 向 量 的 向 量 
testFeatureVecs = [e.getFeatures() for e in testSet] 
probs = model.predict proba(testFeatureVecs) 
truePos，falsePos，trueNeg，falseNeg = 60, 68, 606, 0 
for i in range(len(probs)): 

if probs[i][1] > prob: 
if testSet[i].getLabel() == label: 
truePos += 1 
else: 
falsePos += 1 
else: 
if testSet[i].getLabel() != label: 
trueNeg += 1 
else: 
falseNeg += 1 
return truepos, falsePos, trueNeg, falseNeg 


examples = buildMarathonExamples('bm_ results20812.txt') 
training, test = divide86_26(examples) 


featureVecs, labels = [], [] 
for e in training: 
featureVecs.append([e.getAge(), e.getTime()]) 
labels.append(e.getLabel()) 
model = sklearn.linear model.LogisticRegression().fit(featureVecs, 
labels) 
print('Feature weights for label M:', 
"age ="', str(round(model.coef_ [8][8], 3)) + ','， 
'time =', round(model.coef_ [6][1]，3)) 
truePos, falsePpos, trueNeg, falseNeg = \ 
applyModel(model, test, 'M', 6.5) 
getSstats(truePos, falsePos, trueNeg, falseNeg) 



































图 24-15 ”使 用 logistic 回 归 预 测 性 别 
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运行 图 中 的 代码 ， 会 输出 : 


Feature weights for label M: age = 6.655，time = -6.611 
Accuracy = 0.635 

Sensitivity = 6.831 

Specificity = 6.377 

Pos. Pred. Val. = 6.638 





我 们 将 这 个 结果 与 KNN 方 法 的 结果 进行 比较 : 
准确 度 =8.65 
灵敏 度 =9.715 
特异 度 =9.563 


阳性 预测 值 -9.684 

准确 度 和 阳性 预测 值 非常 接近 ,但 是 logistic 回 归 的 灵敏 度 特别 高 ， 特 异 度 特别 低 ， 这 就 使 两 
种 方法 的 比较 很 难 进行 下 去 。 要 解决 这 个 问题 ， 我 们 可 以 在 app1yModel 函 数 中 调整 概率 阔 值 ， 
使 灵敏度 与 KNN 方 法 的 灵敏 度 近似 相等 。 要 找到 这 个 阔 值 概率 ， 我 们 可 以 对 prob 的 值 进行 遍历 ， 
直到 得 到 一 个 与 KNN 方 法 非常 接近 的 灵敏 度 。 

如 果 使 用 prob = 6.578 一 一 而 不 是 0.5 


准确 度 =8.659 
灵敏 度 =8.714 
特异 度 =9.586 
阳性 预测 值 =9.695 


可 以 看 出 ， 这 两 个 模型 的 性 能 几乎 是 一 样 的 。 

对 于 线性 回归 模型 ， 知 道 改 变 决 策 阔 值 所 带 来 的 影响 非常 容易 。 因 此 ， 人 们 通常 使 用 受 试 者 
工作 特征 曲线 "， 或 称 ROC 曲 线 ,， 来 形象 地 表示 灵敏 度 和 特异 度 之 间 的 折 庙 关系 。 这 种 曲线 可 以 
绘制 出 多 个 决策 阔 值 的 真 阳性 率 〈 灵敏度) 和 假 阳 性 率 (1 - 特异 度 ) 之 间 的 关系 。 
通过 计算 曲线 下 面积 , 可 以 在 多 个 ROC 曲 线 之 间 进 行 比较 。 这 个 面积 实际 上 是 个 概率 ， 对 于 
一 个 随机 选择 的 阳性 样本 ,一 个 好 的 模型 将 其 标注 为 阳性 的 概率 应 该 高 于 将 一 个 随机 选择 的 阴性 
样本 标注 为 阳性 的 概率 。 这 就 是 人 们 所 说 的 模型 的 判别 能 力 。 请 一 定 注意 ,判别 能 力 和 准确 度 是 
不 同 的 ， 它 也 常 被 称 为 对 概率 的 校准 。 例 如 ,我 们 可 以 将 所 有 估计 出 的 概率 都 除 以 2?， 这 时 不 会 
改变 模型 的 判别 能 力 ， 但 显然 改变 了 模型 估计 的 准确 度 。 

图 24-16 中 的 代码 为 logistic 回 归 分 类 器 绘制 了 ROC 曲 线 ， 即 图 24-17 中 的 实 线 。 图 中 的 虚线 表 
示 的 是 随机 分 类 器 ( 即 完 全 随机 选择 标签 的 分 类 器 ) 的 ROC 曲 线 。 要 想 计 算 AUROC , 可 以 对 ROC 
曲线 先进 行 插值 〈 因 为 我 们 只 有 一 些 不 连续 的 点 )， 再 进行 积分 ， 但 我 们 要 偷 个 懒 ， 直 接 调 用 函 


数 sklearn.metrics .auc。 









































调用 applyModel， 会 得 到 如 下 结果 : 



















































































g 它 被 称 为 “ 受 试 者 工作 特征 曲线 ”是 有 历史 原因 的 。 这 种 方法 开发 于 第 二 次 世界 大 战 期 间 ， 用 来 评价 接收 雷达 信 
号 的 设备 的 工作 特性 。 
































320 第 24 章 分 类 方法 








xVals, yVals = [], [] 

p = 0.9 

while p <= 1.6: 
truePos，falsePos，trueNeg，falseNeg =\ 


yVals.append(sensitivity(truePos，falseNeg)) 
p += 6.61 
auroc = sklearn.metrics.auc(xVals, yVals, True) 
if plot: 
pylab.plot(xVals, yVals) 
pylab.plot([6,1]， [6,1,]， i 
pylab.title(title + ' (AUROC = 和 
+ str(round(auroc, 3)) + ')') 
pylab.xlabel('1 - Specificity') 
pylab.ylabel('Sensitivity') 
return auroc 





def buildROC(model, testSet, label, title, plot = True): 


applyModel(model, testSet, label, p) 
xVals.append(1.6 - specificity(trueNeg, falsePos)) 


buildROC(model, test, 'M', 'ROC for Predicting Gender') 


























图 24-16 ”构建 ROC 曲 线 并 计算 AUROC 





10 ”预测 性 别 的 ROC (AUROC = 0.713) 




















0.4 06 
1- 特 异 度 











图 24-17 ROC 曲 线 和 AUROC 








0.8 1.0 





实际 练习 : 图 24-15 中 的 模型 使 用 200 名 随机 选择 的 跑步 者 进行 测试 时 ， 编 写 代 码 绘制 ROC 曲 











线 并 计算 AUROC。 使 用 这 段 代 码 研究 训练 样本 数量 对 于 AUROC 的 
增加 到 1010， 每 次 增加 50 个 )。 


24.5 ”从 “泰坦 尼克 ”号 生还 




















影响 ( 可 以 将 样本 数量 从 10 





1912 年 4 月 15 日 清晨 ,英国 皇家 游轮 “泰坦 尼克 ”号 因为 撞 上 冰山 而 沉没 在 北大 西洋 。 船 上 
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有 大 约 1300 名 乘客 ，832 人 在 这 次 灾难 中 丧生 。 导 致 这 场 灾 难 的 原因 很 多 ， 包 括 航 行 中 的 失误 、 
救生 船 配备 不 足以 及 附近 船只 反应 迟钝 。 乘客 个 人 能 否 生还 纯 凭 天 意 , 但 绝 不 是 完全 随机 的 。 实 
际 上 ， 通 过 船上 旅客 名 单 提 供 的 信息 ， 可 以 建立 一 个 不 错 的 模型 来 预测 旅客 能 否 从 “泰坦 尼克 ” 
号 上 生还 。 

在 本 节 中 ， 我 们 会 根据 一 个 包含 1046 位 乘客 信息 的 数据 集 "， 建 立 一 个 分 类 模型 。 文 件 每 一 
行 都 包括 一 位 乘客 的 以 下 信息 : 舱位 等 级 (一 等 舱 、 二 等 舱 、 三 等 舱 )、 年 龄 、 性 别 、 是 否 生 还 、 
姓名 。 

使 用 logistic 回 归 建 立 模型 ， 这 样 做 的 理由 是 : 
口 它 是 最 常用 的 分 类 方法 ; 

口 通过 对 logistic 回 归 权 重 的 分 析 ， 我 们 可 以 更 加 深刻 地 理解 ， 为 什么 有 些 乘客 比 其 他 人 更 
有 可 能 生还 。 

图 24-18 定 义 了 Passenger 类 。 代 码 中 唯一 需要 注意 的 是 对 舱位 等 级 的 编码 ,尽管 数据 文件 使 
用 整数 对 舱位 等 级 进行 了 编码 , 但 那 只 是 一 种 记号 ,舱位 等 级 是 不 能 用 数值 表示 的 ， 比 如 ,一 等 
舱 加 上 二 等 舱 不 可 能 等 于 三 等 舱 。 我 们 使 用 3 个 二 元 特征 对 舱位 等 级 进行 编码 ( 每 种 舱位 等 级 对 
应 一 个 特征 )。 对 于 每 位 乘客 ，3 个 特征 中 只 能 有 1 个 为 1， 其 他 两 个 都 是 0。 



































































































































Class Passenger(object): 
features = ('C1', 'C2', 'C3', 'age', male gender') 
def _ init (self, pClass, age, gender, survived, name): 
self.name = name 
self.featureVec = [6, 0, 60, age, gender] 
self.featureVec[pClass - 1] = 1 
self.label = survived 
self.cabinClass = pClass 
def distance(self, other): 
return minkowskiDist(self.veatureVec, other.featureVec, 2) 
def getClass(self): 
return self.cabinClass 
def getAge(self) : 
return self.featurevec[3] 
def getGender(self): 
return self.featureVec[4] 
getName(self): 
return self.name 
def getFeatures(self): 
return self.featureVec[:] 
def getLabel(self): 
return self.label 


de 


< 














图 24-18 ”Passenger 类 














@ 这 些 数据 是 从 R.J.Dawson 建 立 的 一 个 数据 集中 抽取 的 ,这 个 数据 集 曾 用 于 这 篇 文章 : The “Unusual Episode”Data 24 


Revisted, Journal of Statistics Education, v.3, n.3, 1995。 
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这 是 机 需 学 习 中 经 常 出 现 的 一 个 问题 。 很 多 事情 适合 使 用 分 类 特征 〈 又 称 为 名 义 特 征 ) 进行 
描述 ， 例 如 跑步 者 的 国籍 。 使 用 整数 代替 分 类 特征 非常 容易 ， 比 如 ， 我 们 可 以 使 用 ISO 3166-1 标 
准 表示 国家 和 地 区 "”，076 代 表 巴 西 ，826 代 表 英 国 ，862 代 表 委 内 瑞 拉 。 这 样 做 的 问题 是 ， 回 归 方 
法 会 将 它们 当 作 数 值 变量 进行 处 理 , 于 是 会 导致 一 种 非常 荡 雇 的 国家 排序 方法 , 认为 委内瑞拉 与 























英国 之 间 的 距离 比 它 与 巴西 更 近 。 








的 一 个 潜在 问题 是 ， 特 征 向 量 会 非常 长 ， 而 ] 
药物 ， 我 们 就 需要 将 一 个 分 类 变量 转换 成 2000 个 二 元 变量 ， 每 种 药物 对 应 一 个 二 元 变量 。 
图 24-19 中 的 代码 从 一 个 文件 读 取 数据 ， 并 使 用 文件 中 关于 “泰坦 尼克 ”的 数据 建立 一 个 样 


本 集合 。 











就 像 我 们 对 舱位 等 级 的 处 理 一 样 , 将 分 类 变量 转换 为 二 元 变量 就 可 以 避免 这 种 问题 。 这 样 做 
日 非常 稀 玻 。 举 例 来 说 ， 如 果 医 院 分 配 2000 种 不 同 的 






































def testModels(examples, numTrials, printStats, printWeights): 


survived = 1 # 表 示 生 还 的 标签 值 
stats, weights = [], [[], [], [], [], []] 
for i in range(numTrials): 
training, testSet = divide86_ 26(examples) 
featureVecs, labels = [], [] 
for e in training: 
featureVecs.append(e.getFeatures()) 
labels.append(e.getLabel()) 
featureVecs = pylab.array(featureVecs) 
labels = pylab.array(labels) 
model =\ 
sklearn.linear model.LogisticRegression().fit(featureVecs, 
labels) 
for i in range(len(Passenger.features)): 
wejights[i].append(model.coef [8][i]) 
truePos, falsePpos, trueNeg, falseNeg =\ 
applyModel(model, testSet, survived, 68.5) 
auroc = buildROC(model, testSet, survived, None, False) 
tmp = getStats(truePos, falsepos, trueNeg, falseNeg, False) 
stats.append(tmp + (auroc, )) 
print('Averages for', numTrials, 'trials') 
if printWeights: 
for feature in range(len(weights)): 
featureMean = sum(weights[feature])/numTrials 
featureSstd = stdDev(weights[feature]) 
print(' Mean weight of', Passenger.features[feature], 
'="', str(round(featureMean, 3)) + ','， 
"95% confidence interval =', round(1.96*featureStd, 3)) 
if printStats: 
summarizeStats(stats) 





图 24-19 ” 读 取 “泰坦 尼克 ”数据 并 建立 样本 集合 














QISO 3166-1 数 字 编 码 是 由 国际 标准 化 组 织 制定 的 ISO 3166 标 准 的 一 部 分 。 
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现在 我 们 已 经 有 了 数据 , 可 以 建立 logistic 回 归 模型 ， 建 立 模型 所 用 的 代码 与 建立 波士顿 马 拉 
松 数据 模型 的 代码 完全 相同 。 但 是 ,因为 这 次 数据 集中 的 样本 数量 相对 比较 少 , 所 以 使 用 以 前 的 
评价 方法 时 ， 我 们 要 小 心 一 些 。 对 数据 进行 80-20 划 分 时 ， 完 全 有 可 能 得 到 没有 代表 性 的 数据 ， 
从 而 产生 误导 性 的 结果 。 

为 了 减少 这 种 风险 , 我 们 对 数据 进行 多 次 不 同 的 80-20 划 分 ( 每 次 划分 都 使 用 图 24-5 中 定义 的 
divide86_26 函 数 进行 ), 对 每 次 划分 都 建立 一 个 分 类 器 并 进行 评价 ,然后 使 用 图 24-20 和 图 24-21 
中 的 代码 ， 报 告 均值 和 95% 置 信 区 间 。 












































def testModels(examples, numTrials, printStats, printWeights): 
stats, weights = [], [[], [], [], [], []] 
for i in range(numTrials): 
training, testSet = divide86_ 26(examples) 
xVals, yVals = [], [] 
for e in training: 
xVals.append(e.getFeatures()) 
yVals.append(e.getLabel()) 
xVals = pylab.array(xVals) 
yVals = pylab.array(yVals) 
model = sklearn.linear model.LogisticRegression().fit(xVals, 
yVals) 
for i in range(len(Passenger.features)): 
weights[i].append(model.coef _ [8][i]) 
truePos, falsePpos, trueNeg, falseNeg =\ 
applyModel(model, testSet, 1, 60.5) 
auroc = buildROC(model, testSet, 1, None, False) 
tmp = getStats(truePpos, falsepos, trueNeg, falseNeg, False) 
stats.append(tmp + (auroc, )) 
print('Averages for', numTrials, 'trials') 
if printNeights : 
for feature in range(len(weights)): 
featureMean = sum(weights[feature])/numTrials 
featureSstd = stdDev(weights[feature]) 
print(' Mean weight of'，Passenger.features[feature]， 
"="，Sstr(round(featureMean，3)) +“，， 
"95% confidence interval =', round(1.96*featureSstd, 3)) 
if printStats: 
summarizeStats(stats) 











图 24-20 ”测试 “泰坦 尼克 ”生还 模型 





324 第 24 章 分 类 方法 








def summarizeStats(stats): 


def printStat(X, name): 
mean = round(sum(X)/len(X), 3) 
std = stdDev(X) 
print(' Mean', name, '=', str(mean) + ',', 

"95% confidence interval =', round(1.96*std, 3)) 
accs, sens, specs, ppvs, aurocs = [], [], [], [], [] 
for stat in stats: 

accs.append(stat[6]) 
sens.append(stat[1]) 
specs.append(stat[2]) 
ppvs.append(stat[3]) 
aurocs.append(stat[4]) 
printStat(accs, "accuracy ) 
printStat(sens, 'sensitivity') 
printStat(accs, 'specificity') 
printStat(sens, 'pos. pred. val.') 
printStat(aurocs, 'AUROC') 





""" 假 设 stats 是 列表 ， 包 含 5 个 浮 点 数 元 素 : 准确 度 、 灵 敏 度 、 特 异 度 、 阳 性 预测 值 和 ROC""" 








图 24-21 ”打印 分 类 器 的 统计 量 


la 








调用 testModels(examples，166，True，False)， 会 输出 : 


Averages for 166 trials 
Mean accuracy = 6.783，95% confidence interval = 6.646 
Mean sensitivity = 6.699，95% confidence interval = 6.699 
Mean specificity = 6.783，95% confidence interval = 6.646 
Mean pos. pred. val. = 6.699，95% confidence interval = 6.699 
Mean AUROC = 6.839，95% confidence interval = 6.651 


看 上 去 ， 通 过 这 个 比较 小 的 特 
为 了 确定 什么 人 


testModels(examples，166，False，True) 
会 输出 : 


Averages for 166 trials 
Mean weight of C1 = 1.648, 95% confidence interval = 8.156 
Mean weight of C2 = 6.449, 95% confidence interval = 8.695 
Mean weight of C3 = -0.499, 95% confidence interval = 6.112 
Mean weight of age = -60.60631, 95% confidence interval = 6.666 
Mean weight of male gender = -2.367, 95% confidence interval = 6.144 


所 以 要 想 从 一 次 海难 中 幸存 ， 你 应 该 有 钱 "、 年 经， 并且 是 女性 。 
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@ 以 现在 的 美元 计 ,“ 泰 坦 尼克 ”号 上 一 等 舱 的 费用 大 约 是 70 000 美 元 。 


完全 可 以 建立 一 个 不 错 的 模型 来 预测 乘客 





24.6 总结 


在 本 书 最 后 三 章 ， 我 们 只 对 机 器 学 习 进 行 了 一 些 晴 几 点 水 式 的 介绍 。 

对 于 本 书后 半 部 分 的 很 多 内 容 , 可 以 说 我 们 也 只 介绍 了 一 些 皮毛 。 我们 试图 使 你 领略 到 一 种 
新 的 思维 方式 一 一 使 用 计算 机 可 以 更 好 地 理解 这 个 世界 , 希望 你 能 够 自己 找到 方法 来 解决 感 兴 
的 问题 。 可 能 你 会 觉得 有 些 内 容 不 如 其 他 内 容 有 趣 , 但 我 们 确实 希望 你 至 少 能 发 现 一 些 想 要 深入 
了 解 的 内 容 。 














Python 3.5 速 查 表 


数值 类 型 常用 操作 符 


i + ji 与 j] 之 和 。 

i - j i 与 j 之 差 。 

i * j i 与 ] 之 积 。 

i//j 整除 。 

i/j 浮 点 数 除法 。 

i%j 整数 i 除 以 整数 j 的 余数 。 

i**j 的 j 次 方 。 

x += y 等 于 x = x + y，*= 和 -= 同 理 。 


比较 操作 符 与 布尔 操作 符 


== y 如 果 x 等 于 y， 则 返回 True。 

!= y 如 果 x 不 等 于 y， 则 返回 True。 

>、<=、>= 与 其 常用 意义 相同 。 

a and b 如 果 a 与 6 均 为 True， 则 值 为 True， 否 则 为 False。 

a or b 如 果 a 与 bo 中 至 少 有 一 个 为 True， 则 值 为 True， 否 则 为 False。 
not a 如 果 a 为 False， 则 为 True; 如 果 a 为 True， 则 为 False。 


序列 类 型 常用 操作 符 


seq[i] 返回 序列 中 第 ;个 元 素 。 

len(seq) 返回 序列 长 度 。 

seq1 + seq2 连接 两 个 序列 。( 不 能 用 于 范围 。) 

n*seq 返回 一 个 将 seq 重 复 n 次 的 序列 。( 不 能 用 于 范围 。) 
seq[start:end] 返回 序列 的 切片 。 

e in seq 测试 序列 中 是 否 包含 e。 

e not in seq 测试 序列 是 否 不 包含 e。 
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for e in seq 遍历 序列 中 的 元 素 。 


串 方 法 


.count(s1) 计算 
.find(s1) 返回 子 字符 串 s1 第 
.rfind(s1) 功能 同 find, 但 从 s 末 尾 开 始 搜 索 。 


用 字 Ar 


用 字符 
字符 串 s1 在 s 中 出 现 的 次 数 。 








.lower() 将 所 有 大 写字 母 转换 为 小 写 。 
.replace(old，new) 将 s 中 出 现 的 所 有 
.rstrip() 删除 字符 串 后 面 的 所 有 空白 字 





符 。 


mwmwmwmmwmwm wm wm 


常用 列表 方法 


.append(e) 将 对 象 e 添 加 到 [的 末尾 。 

.count(e) 返回 e 在 [中 出 现 的 次 数 。 
.insert(i，e) 在 L 中 索引 值 为 ?处 搬入 对 象 e。 
.extend(L1) 在 L 的 末尾 加 入 L1 中 的 所 有 项 目 。 
.remove(e) 从 L 中 删除 第 一 次 出 现 的 e。 
.index(e) 返回 L 中 第 一 次 出 现 e 时 的 索引 值 ; 如 细 
.pop(i) 删除 并 返回 索引 值 为 ;的 项 目 ; ;的 默认 值 














.sort() 对 L 中 的 元 素 进行 排序 ， 具 有 副作用 。 
.reverse() 对 L 中 的 元 素 进行 反 转 排序 ， 具 有 副 


用 字典 操作 符 


len(d) 返回 d 中 项 的 数量 。 
d.keys() 返回 d 中 键 的 视图 。 
d.values() 返回 d 中 值 的 视图 。 
k in d 如 果 键 k 在 d 中 ， 则 返回 True。 
d[k] 返回 d 中 键 为 k 的 项 ， 如 果 k 不 在 d 中 ， 
d.get(k，v) 如 果 k 在 d 中 ， 返 回 d[k]， 
d[k] = v 将 值 v 与 键 k 关 联 起 来 ， 如 果 已 
del d[k] 从 d 中 删除 键 为 K 的 元 素 ， 如 果 
for k in d 遍历 d 中 的 键 。 


让 


吓 























则 抛 出 一 











经 存在 与 




















一 次 出 现在 s 中 时 的 索引 值 ， 如 


.splite(d) 使 用 d 作 为 分 隔 字 符 对 s 进 行 拆 分 ， 返 


k 不 在 d 中 ， 





E 
个 














s1 不 在 s 中 ， 则 返回 -1。 


.index(s1) 功能 同 find， 但 如 果 s1 不 在 s 中 ， 则 抛 出 异常 。 
.rindex(s1) 功能 同 index, 但 从 s 末 尾 开 始 搜 索 。 


字符 串 o1d 蔡 换 为 字符 串 new。 





回 s 的 子 字符 串 列 表 。 





Re 不 在 LL 中, 则 抛 出 一 个 ValueError 异 常 。 
为 -1。 如 果 L 为 空 , 则 抛 出 一 

















一 个 IndexError 


作用 。 


一 个 KeyError 异 常 。 


pH 否则 返回 v。 


k 关 联 的 值 ， 
则 抛 出 


则 替换 该 值 。 


一 个 KeyError 异 常 。 
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常用 输入 /输出 机 制 


input(msg) 打印 msg 并 将 输入 值 作为 一 个 字符 串 返回 。 
pring(s1，...，sn) 打印 字符 串 s1，...，sn， 以 空格 作为 间隔 。 
open('filename' ，'w') 创建 一 个 文件 以 供 写 和 人。 
open('filename'，'r') 打开 一 个 已 有 文件 以 供 读 取 。 
open('filename'，'a') 打开 一 个 已 有 文件 以 供 追 加 。 
filehandle.read() 返回 一 个 包含 文件 内 容 的 字符 串 。 
filehandle.readline() 返回 文件 的 下 一 行 。 
filehandle.readlines() 返回 一 个 包含 文件 各 行 的 列表 。 
filehandle.write(s) 向 文件 未 尾 写 人 字符 串 s。 
filehandle.writelines(L) 将 L 中 的 每 个 元 素 作为 单独 行 写 入 文件 。 
filehandle.close() 关闭 文件 。 
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回复 “Python” 查 看 相关 书 单 
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这 本 书 就 是 我 们 期 待 已 久 的 “计算 思维 ”图 书 : 不 拘泥 于 技术 细节 ， 详 尽 展现 了 计算 机 科学 的 广度 与 乐 
趣 。 第 2 版 收录 了 很 多 全 新 的 材料 ， 帮 助 读者 聚焦 计算 ， 包 括 理解 数据 、 完 善 传统 计算 问题 的 解决 方案 。 





Jeannette M. Wing， 微 软 研究 院 副 总 裁 ， 卡 耐 基 梅 隆 大 学 计算 机 科学 系 顾 问 教 授 、 前 系 主 任 


本 书 作者 既是 一 位 优秀 的 教师 ， 也 是 杰出 的 作家 。 虽 然 你 将 通过 本 书 学 习 Python， 但 这 并 不 是 “一 本 
Python 书 ”;， 虽然 你 也 会 学 习 编 程 ， 但 这 同样 不 是 一 本 “编程 书 ”。 本 书 叙述 严谨 ， 可 读 性 强 ， 详 细 介 绍 了 
计算 问题 解决 方法 以 及 数据 科学 。 第 2 版 进行 了 扩展 与 重 构 ， 充 分 反映 了 Python 作 为 数据 科学 语言 所 扮演 的 重 
要 角色 。 








Ed Lazowska, 比尔 和 梅 琳 达 : 盖 泡 基金 会 计算 机 科学 与 工程 部 门 主席 ， 华 盛 顿 大 学 电子 科研 学 院 导 师 


“用 Python 3 讲授 一 门 小 型 计算 机 科学 课程 时 ， 我 选择 了 这 本 书 ， 看 重 的 是 书 中 关于 计算 机 科学 和 编程 
的 更 广阔 视野 和 更 多 思路 。” 
一 一 Amazon.com 


“这 本 书 非常 棒 ， 涵 盖 了 计算 机 科学 的 众多 基础 领域 。 作 者 用 Python 讲解 了 计算 相关 知识 ， 并 且 教 你 如 
何以 计算 机 科学 家 的 身份 思考 并 解决 问题 。 书 中 的 示例 也 能 让 你 切身 实践 习 得 的 知识 。” 
一 一 Amazon.com 





掌握 多 种 思维 方式 是 每 个 人 大 学 时 代 的 必修 课 。 具 备 使 用 计算 思维 解决 问题 的 能 力 是 程序 员 入 门 的 基本 技 
能 。 本 书 基于 作者 开 授 的 MIT 热 门 MOOC 教 程 编写 ， 则 在 培养 读者 的 计算 思维 ,为 其 日 后 的 |T 生 涯 打下 坚实 
的 编程 基础 。 


on 以 Python 3 为 示例 ， 涵 盖 Python 大 部 分 特性 ， 重 在 介绍 编程 语言 可 以 做 什么 
0" 如 何 系统 性 地 组 织 、 编 写 、 调 试 中 等 规模 的 程序 

2 理解 计算 复杂 度 

2? ”将 模糊 的 问题 描述 转化 为 明确 的 计算 方法 ， 以 此 解决 问题 ， 并 深刻 理解 整个 过 程 


om 掌握 有 用 的 算法 以 及 问题 简化 技术 
5" 使 用 随机 性 和 模拟 技术 清晰 闻 述 很 难得 到 封闭 解 的 问题 
om" 使 用 计算 工具 (包括 简单 的 统计 、 可 视 化 以 及 机 器 学 习 工 具 ) 对 数据 进行 理解 与 建 模 





ISBN 978-7-115-47376-9 
图 灵 社 区 : iTuring.cn 
热线 : (010)51095186 转 600 0 
Ee、 i ISBN 978-7-115-47376-9 
多 正六 EX 计算 机 /程序 设计 /Python 定价 6900 元 69.00 元 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


